Présentation Générale

 



           
Huitième édition du Symposium MaDICS (les inscriptions sont ouvertes !)

Ce rendez-vous annuel rassemble la communauté MaDICS afin de mettre en lumière les avancées récentes en sciences des données, à travers un programme scientifique riche comprenant des conférences invitées (keynotes), des ateliers thématiques, des tables rondes et des sessions de posters.
Ces temps forts favorisent des échanges scientifiques à la fois stimulants et conviviaux.

Une Session Poster sera spécialement consacrée aux jeunes chercheuses et jeunes chercheurs souhaitant présenter leurs travaux en analyse et gestion de données et dans les domaines interdisciplinaires autour de la Science des Données. Cette session sera également l’occasion d’échanger avec des collègues académiques et des acteurs industriels sur les thématiques de recherche présentées.

Dates importantes :

  • Soumission de posters : au plus tard le 23 mars 2026 2 avril 2026
  • Retour : 9 avril 2026
  • Date limite d’inscription : 30 avril 2026
  • Symposium : les 2 et 3 juin 2026 à Avignon

Nous vous invitons d’ores et déjà à réserver ces dates dans votre agenda et à vous inscrire !
Inscrivez-vous ici

Pour en savoir plus…

MaDICS est un Groupement de Recherche (GDR) du CNRS créé en 2015. Il propose un écosystème pour promouvoir et animer des activités de recherche interdisciplinaires en Sciences des Données. Il est un forum d’échanges et d’accompagnement pour les acteurs scientifiques et non-scientifiques (industriels, médiatiques, culturels,…) confrontés aux problèmes du Big Data et des Sciences des données.
Pour en savoir plus…


Les activités de MaDICS sont structurées à travers des Actions et Ateliers. Les Actions rassemblent les acteurs d’une thématique précise pendant une durée limitée (entre deux et quatre ans). La création d’une Action est précédée par un ou plusieurs Ateliers qui permettent de consolider les thématiques et les objectifs de l’action à venir.


Le site de MaDICS propose plusieurs outils de support et de communication ouverts à la communauté concernée par les Sciences des Données:

  • Manifestations MaDICS : Le GDR MaDICS labellise des Manifestations comme des conférences, workshops ou écoles d’été. Toute demande de labellisation est évaluée par le Comité de Direction du GDR. Une labellisation rend possible un soutien financier pour les jeunes chercheuses et chercheurs. Une labellisation peut aussi être accompagnée d’une demande de soutien financier pour des missions d’intervenants ou de participants à la manifestation.
    Pour en savoir plus…
  • Réseaux MaDICS : pour mieux cibler les activités d’animation de la recherche liées à la formation et à l’innovation, le GDR MaDICS a mis en place un Réseau Formation destiné à divers publics (jeunes chercheurs, formation continue,…), un Réseau Innovation pour faciliter et intensifier la diffusion des recherches en Big Data, Sciences des Données aux acteurs industriels et un Club de Partenaires qui soutiennent et participent aux activités du GDR.
    Pour en savoir plus…
  • Espace des Doctorants : Les doctorants et les jeunes chercheurs représentent un moteur essentiel de la recherche et le GDR propose des aides à la mobilité et pour la participation à des manifestations MaDICS.
    Pour en savoir plus…
  • Outils de communication : Le site MaDICS permet de diffuser des informations diverses (évènements, offres d’emplois, proposition de thèses, …) liées aux thématiques de recherche du GDR. Ces informations sont envoyées à tous les abonnés de la liste de diffusion MaDICS et publiés dans un Calendrier public (évènements) et une page d’offres d’emplois.

Adhésion au GDR MaDICS : L’adhésion au GDR MaDICS est gratuite pour les membres des laboratoires ou des établissements de recherche publics. Les autres personnes peuvent adhérer au nom de l’entreprise ou à titre individuel en payant une cotisation annuelle.
Pour en savoir plus…


Manifestations à venir

Journées Ecoles Conférences et Séminaires

Actions, Ateliers et Groupes de Travail :

CODA DAE DatAstro DSChem EXMIA GINO GRASP RECAST SaD-2HN SIMDAC SimpleText TIDS  


May
25
Tue
2021
Analyse de données relationnelles – définition de quantificateurs spatiaux et temporels
May 25 – May 26 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : ICube, Strasbourg
Durée : 3 ans
Contact : florence.leber@engees.unistra.fr
Date limite de publication : 2021-05-25

Contexte :
L’analyse de concepts formels (ACF) [1] est une méthode mathématique de classification, largement appliquée sur différents types de données et dans de nombreux domaines (par exemple [2,3]). Elle consiste, à partir d’une table (appelée contexte) décrivant des objets par des attributs, à construire un treillis de concepts, i.e. des couples (extension ; intension) d’ensembles fermés décrivant les objets et les attributs qui les définissent. Cette méthode est étendue aux données relationnelles dans le cadre de l’analyse relationnelle de concepts (ARC) [4]. L’ARC considère deux types de contextes, des contextes objets-attributs et des contextes objets-objets décrivant les relations entre objets. L’ARC étend les contextes objets-attributs par des attributs relationnels de la forme qrC, où q est un quantificateur, r une relation et C un concept issu du co-domaine de r. Le résultat de l’ARC est une famille de treillis (un par contexte objets-attributs) reliés entre eux par ces attributs relationnels.

Sujet :
ACF/ARC proposent des outils qui ont fait leurs preuves dans le cadre de différents projets, et produisent des résultats faciles à interpréter par les experts cherchant à analyser des données dans leur domaine. Des améliorations sont toutefois attendues à la fois pour traiter une plus grande volumétrie de données [5] et pour simplifier le processus. Dans ce cadre, la thèse va se focaliser sur les bases de données spatio-temporelles afin de proposer un processus complet d’analyse de ce type de données. Un focus particulier sera fait sur les quantificateurs utilisés dans l’ARC, afin de proposer des quantificateurs spécifiques aux données spatiales et temporelles. On s’appuiera pour cela sur les quantificateurs existants (existentiel, universel ou de dénombrement [6]) et sur les modèles qualitatifs de l’espace et du temps [7].
Habituellement on définit un schéma relationnel pour l’ARC en sélectionnant des tables (extraites de la base) et en calculant des relations entre les objets, ce qui constitue un prétraitement au processus ARC. Dans le cadre de cette thèse, on définira un type de schéma relationnel plus souple, à base de contraintes instanciables, afin de permettre une modification des données traitées sans avoir à recommencer le processus à partir des prétraitements.
Si on prend l’exemple d’une base de données géographiques, où on veut étudier les relations entre parcelles de cultures ayant certaines relations spatiales (connexe, proche, etc.). Actuellement on extrait les tables objets-attributs (parcelle, culture) et les contextes objets-objets calculés (par exemple les parcelles sont proches si leur distance est inférieure à 500 m). On peut alors créer des attributs relationnels il-existe-proche.C en utilisant le quantificateur existentiel. On voudrait pouvoir utiliser un quantificateur spécifique il-existe-proche qui s’applique à un contexte objets-objets plus général comprenant les distances numériques entre parcelles. Ce quantificateur doit pouvoir s’instancier selon différents schémas, où la distance seuil pourrait varier.
Ce type de quantificateur pourrait aussi s’instancier différemment selon que l’on considère les objets d’un concept ou le concept dans son ensemble, permettant de rendre compte de relations spécifiques entre groupes (comme le font les critères d’agrégation en classification hiérarchique).
Finalement, le travail devrait aboutir à la mise en place d’un processus ARC qui s’applique directement sur une base de données, permettant de traiter plus de données dans un environnement plus convivial pour un analyste. Un autre résultat attendu concerne l’apport théorique sur les quantificateurs spatiaux et temporels et la notion de schéma relationnel instanciable.

Références :
[1] Ganter, B., Wille, R. Formal concept analysis – mathematical foundations. Springer (1999)
[2] Priss, U. Formal concept analysis in information science. ARIST 40(1), 521–543 (2006)
[3] Alam, M., Coulet, A., Napoli, A., Smaïl-Tabbone, M. Formal Concept Analysis Applied to Transcriptomic Data. CLA 2012, Oct 2012, Fuengirola (Málaga), Spain
[4] Hacene, M.R., Huchard, M., Napoli, A., Valtchev, P. Relational concept analysis: mining concept lattices from multi-relational data. Ann. Math. Artif. Intell. 67(1), 81–108 (2013)
[5] Braud, A., Dolques, X., Gutierrez, A., Huchard, M., Keip, P., Le Ber, F., Martin, P., Nica,  C., Silvie, P. Dealing with Large Volumes of Complex Relational Data using RCA. In CDA_FCA, Rokia Missaoui, Léonard Kwuida, Talel Abdessalem (Eds.), Springer (2021)
[6] Braud, A., Dolques, X., Huchard, M., Le Ber, F. Generalization effect of quantifiers in a classification based on relational concept analysis. Knowledge-Based Systems 160, 119–135 (2018)
[7] Le Ber, F., Ligozat, G., Papini, O. Raisonnements sur l’espace et le temps : des modèles aux applications, Lavoisier, pp. 419 (2007)

Profil du candidat :
Master 2 en Informatique ou équivalent, au moins 12 de moyenne en master et licence 3, très bon classement (selon critères de l’école doctorale)

Formation et compétences requises :
• Formation en logique, représentation de connaissances et programmation
• Curiosité, capacité à appréhender différents domaines et à interagir avec les experts de ces domaines

Adresse d’emploi :
ICube UMR 7357 – Laboratoire des sciences de l’ingénieur, de l’informatique et de l’imagerie
300 bd Sébastien Brant – CS 10413 – F-67412 Illkirch Cedex

Extraction de connaissances à partir de grands graphes spatio-temporels – application à hydroécologi
May 25 – May 26 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : ICube, Strasbourg
Durée : 3 ans
Contact : florence.leber@engees.unistra.fr
Date limite de publication : 2021-05-25

Contexte :
aloriser les grandes masses de données spatio-temporelles disponibles en Sciences de l’environnement est crucial. Ceci nécessite de concevoir et développer de nouvelles approches innovantes aptes à traiter conjointement les aspects spatiaux et les aspects temporels, ce qui n’est que peu le cas avec les méthodes actuelles. Si les graphes, outils puissants à la fois théoriquement et méthodologiquement, sont utilisés pour modéliser des phénomènes temporels ou spatiaux, les méthodes actuelles de fouille, d’analyse et d’extraction de connaissances n’exploitent, en général, qu’une seule dimension de l’information, spatiale versus temporelle. Cela implique souvent une perte de précision et possibilité d’interprétation des résultats [1]. Notre équipe travaille depuis de nombreuses années en collaboration avec des hydro-écologistes sur l’évaluation de la qualité des hydro-écosystèmes. Ce travail a été l’objet de plusieurs projets, dont le projet ANR Fresqueau 2011-2015 (engees-fresqueau.unistra.fr). Nous travaillons également en étroite collaboration avec le SERTIT (Service Régional de Traitement d’Image et de Télédétection, sertit.u-strasbg.fr), dont le but est de produire de l’information géographique à partir des images satellites. Cette collaboration a également fait l’objet de plusieurs projets comme par exemple le projet R&T A2CNES (2017-2018) financé par le CNES. Au travers de ces différentes collaborations, nous avons pu manipuler et fouiller des données nombreuses et variées, tant en termes d’informations apportées de que formats de données. Afin d’extraire des connaissances pertinentes de ces données, en combinant à la fois les aspects spatiaux et temporels, nous nous intéressons maintenant au modèle des graphes spatio-temporels [2].

Sujet :
L’objectif général de la thèse est d’étudier et développer des techniques pour extraire des connaissances à partir de grands graphes spatio-temporels. Différentes questions devront être abordées de manière itérative.
• Simplification : les graphes étant de grande taille, il sera nécessaire de les simplifier (par exemple, regrouper des sommets dans un super-sommet représentant l’évolution globale de cet ensemble de sommets [3]), de les segmenter, sur une base experte, ou de choisir une autre représentation plus synthétique, pour réduire leur taille et les exploiter ou les visualiser plus facilement.
• Recherche de motifs : il s’agira de rechercher des motifs spatio-temporels définis par un expert (par exemple une évolution temporelle typique de l’urbanisation pour un ensemble de parcelle voisines) ou faire apparaître des répétitions fréquentes dans un ou plusieurs graphes. La recherche de motifs pourra se faire de manière inexacte, en s’appuyant sur des distances d’édition de graphes [4] et/ou sur des méthodes de recherche récursives [5].
• Synthèse interprétable : il s’agira de coupler recherche de motifs et connaissances du domaine afin de synthétiser un graphe spatio-temporel par un graphe de motifs étiquetés, représentatifs de phénomènes intéressant l’expert.
• Généralisation : dans le graphe initialement simplifié, chaque sous-graphe correspondant à un motif pourra être analysé par les méthodes développées pour finalement obtenir une hiérarchie de graphes-motifs permettant de visualiser de plus en plus finement les phénomènes ayant eu lieu.
En conclusion, le pipeline générique développé visera à répondre à des problématiques actuelles liées à la valorisation de grandes masses de données spatio-temporelles en télédétection [6,7] et hydroécologie [8].

Références
[1] ATLURI, Gowtham, KARPATNE, Anuj, et KUMAR, Vipin. Spatio-temporal data mining: A survey of problems and methods. ACM Computing Surveys (CSUR), 2018, vol. 51, no 4, p. 83.
[2] DEL MONDO, Géraldine, RODRÍGUEZ, M. Andrea, CLARAMUNT, Christophe, et al. Modeling consistency of spatio-temporal graphs. Data & Knowledge Engineering, 2013, vol. 84, p. 59-80.
[3] NABTI, Chems Edinne. Subgraph Isomorphism Search In Massive Graph Data. 2017. Thèse de doctorat. Lyon.
[4] GAO, Xinbo, XIAO, Bing, TAO, Dacheng, et al. A survey of graph edit distance. Pattern Analysis and applications, 2010, vol. 13, no 1, p. 113-129.
[5] SHOKOUFANDEH, Ali, BRETZNER, Lars, MACRINI, Diego, et al. The representation and matching of categorical shape. Computer Vision and Image Understanding, 2006, vol. 103, no 2, p. 139-154.
[6] BHATT, Mehul et WALLGRÜN, Jan Oliver. Geospatial narratives and their spatio-temporal dynamics: Commonsense reasoning for high-level analyses in geographic information systems. ISPRS International Journal of Geo-Information, 2014, vol. 3, no 1, p. 166-205.
[7] LEBORGNE, Aurélie, MEYER, Adrien, GIRAUD, Henri, LE BER, Florence, MARC-ZWECKER, Stella. Un graphe spatio-temporel pour modéliser l’évolution de parcelles agricoles. p. 1-13, SAGEO, Nov 2019, Clermont-Ferrand, France
[8] NICA, Cristina, BRAUD, Agnès, LE BER, Florence. Exploring Heterogeneous Sequential Data on River Networks with Relational Concept Analysis. In 23rd International Conference on Conceptual Structures, Proceedings. Jun 2018, Edimbourg, United Kingdom.

Profil du candidat :
Master 2 en Informatique ou équivalent, 12 de moyenne minimum, très bon classement (selon critères de l’école doctorale)

Formation et compétences requises :
Formation en logique, graphes et programmation
Curiosité, capacité à appréhender différents domaines et à interagir avec les experts de ces domaines

Adresse d’emploi :
ICube UMR 7357 – Laboratoire des sciences de l’ingénieur, de l’informatique et de l’imagerie
300 bd Sébastien Brant – CS 10413 – F-67412 Illkirch Cedex –

May
27
Thu
2021
DAMoS: Deep Analysis of Motor Symptoms for Dementia with Lewy Bodies
May 27 – May 28 all-day

Offre en lien avec l’Action/le Réseau : DOING/– — –

Laboratoire/Entreprise : ICube
Durée : 3 ans
Contact : seo@unistra.fr
Date limite de publication : 2021-05-27

Contexte :
The diagnosis of dementia with Lewy bodies (DLB), a disease associated with abnormal deposits of synuclein (specific protein) in the brain, can be challenging. Its early symptoms are often confused with similar symptoms found in other brain diseases like Alzheimer’s disease or in psychiatric disorders like schizophrenia. The most common DLB signs and symptoms are changes in cognition, movement, and behavior. In this thesis, we will develop a learning-based approach to model face and eye movement from video input, with a specific focus on modeling the motor symptoms of DLB. Our primary objective will be on modeling and detecting facial motor symptoms, such as reduced facial expression, and facial expressions showing behavioral symptoms (depression, apathy, or agitation). Other motor symptoms related to cognitive symptoms will also be considered, which requires analyzing the eye movement: Troubles or unpredictable changes in visual attention, executive, visual and spatial abilities (judging distance and depth or misidentifying objects), and movements showing cognitive fluctuations or visual hallucinations.
Robust three-dimensional reconstruction, analysis, and characterization of shape and motion of individuals or groups of people from one or more video images have been open problems for decades, with many exciting application areas such as early abnormality detection in predictive clinical analysis. A common way to acquire necessary 3D data and model is to use calibrated multi-view passive cameras to merge a sparse or dense set reconstructed depth images into a single mesh, but the size and cost of such multi-view systems prevent their use in consumer applications. In more unconstrained and ambiguous settings, such as in the monocular image or video, priors in the form of template or parametric model derived from a large dataset are often used, which help to constrain the problem significantly. While generative methods reconstruct the moving geometry by optimizing the alignment between the projected model and the image data, regressive methods train deep neural networks to infer shape parameters of a parametric body model from a single image. Despite remarkable progress, the reconstruction and analysis of facial models from video has not been fully addressed yet, with most existing algorithms operating on ‘normal’ faces, and in a frame-by-frame manner. In this study, we will (1) address the relatively unspoken problem and data, i.e. abnormal face and eye movements, and (2) include a temporal aspect of the facial movement into a learned model, a work that has not been done before.

Sujet :
We will deploy recent deep learning techniques to approach the challenging problem of detection and analysis of facial motor symptoms of DLB from video. Devoted learning-based models will be developed to model the face and eye movements, which will then be integrated into a DLB diagnoser. In both cases, we aim to build our models in 3D, meaning that (1) A 2D-to-3D reconstruction will be preceded for the facial modeler, and (2) 2-dimensional visual stimuli for the eye tracking tests will be generated from 3D models, and the 2D fixation map back-projected to 3D. The work is articulated in three parts:
1. Face movement modeler. A model-based DNN (deep neural network) will be developed, which will learn to jointly regress the 3D facial shape and movement (head pose, and pose-dependent shape change) from the monocular video input. Following our recent success on the DNN-based facial animation modeling, a recurrent neural network will be adopted, which has shown to achieve promising results in modeling sequential, time-series data.
2. Eye movement modeler will be trained to model and analyze the sequence data of saccades and fixations on observed visual stimuli, which we will acquire by using an eye-tracker.
3. DLB diagnoser. Both aforementioned modelers will be integrated into a DLM diagnoser, with a capability of detecting some of the known motor-, cognitive-, and behavioral symptoms.
The observation data of patients and normal aged populations will be collected in collaboration with the University hospital, and other publicly available resources.

Profil du candidat :
— Master’s degree in Computer Science, Electrical Engineering or Applied Mathematics

Formation et compétences requises :
— Solid programming skills in Python/Matlab
— Solid knowledge in deep learning with programming experience in Tensorflow or Pytorch
— Working knowledge in geometry modeling and statistics
— Good communication skills

Adresse d’emploi :
Equipe MLMS, Laboiratoire ICube
Bâtiment Clovis Vincent
5 rue Kirschleger,
67085 Strasbourg Cedex FRANCE

Document attaché : 202101221313_SEO-BLANC_Sujet de these IA.pdf

Human4D: Learning and Representing 4D Human Data
May 27 – May 28 all-day

Offre en lien avec l’Action/le Réseau : DOING/– — –

Laboratoire/Entreprise : ICube
Durée : 3 ans
Contact : seo@unistra.fr
Date limite de publication : 2021-05-27

Contexte :
Reconstructing, characterizing, and understanding the shape and motion of individuals or groups of people have many important applications, such as ergonomic design of products, rapid reconstruction of realistic human models for virtual worlds, and an early detection of abnormality in predictive clinical analysis.
Recent evolutions in the technology for capturing moving shapes enable now full 4D models of human shapes including geometry, motion and appearance, as in Inria, MPI, or more recently with commercial platforms deployed by Intel or Microsoft. Such data open new possibilities and challenges for the analysis and the synthesis of human shapes in motion that are yet largely unexplored but would be of benefit to a wide range of applications. This is especially true with the rapidly growing VR/AR immersive applications, which require realistic and detailed models to improve the immersive experience. Magic leap, Microsoft Hololense, and Facebook Oculus Rift, among others, are clear examples of this recent and rapid evolution and the associated need to produce adapted realistic contents. In the future we will be able to make digital copies of moving persons using a handy imaging device, send them over the network, and make customized compositions of the retrieved 4D human data in our daily life. The French national project Human4D aims at contributing to this evolution with objectives that can profoundly improve the reconstruction, transmission, and reuse of digital human shape data, by unleashing the power of recent deep learning techniques and extending it to 4D human shape modeling.

Sujet :
The objective of this thesis is to develop compact representations of 4D human data that recent deep neural networks can learn over, and demonstrate illustrative applications that are able to analyze, recover, and synthesize 4D human models. Research in computer vision and artificial intelligence has achieved disruptive results in the recognition and synthesis of objects in the image by means of large annotated datasets, deep learning algorithms and adequate GPU resources. However, with most existing architectures and algorithms having developed for 2D images, their adaptation to 3D data (point clouds or meshes) is less obvious, where a regular structure is not directly available. While DL CNNs have been used in some 3D contexts, e.g. face or body modeling, their interest in live modeling of complex, articulated shapes like human body has not yet been fully explored, and extending the learning ability to 4D context remains a largely unexplored area. The specific goal of this work is therefore to propose a new, efficient 4D shape modelling framework for human body shapes under motion, going beyond existing shape space representations that mostly focus on static shape poses and seldom consider the continuous dynamics of body shapes. This will be implemented by leveraging recent deep learning strategies for modeling controllable yet non-deterministic shape changes on one hand, and by investigating novel solutions to several related problems on the other hand, including space-time segmentation and correspondence, nonlinear dimensionality reduction.

Profil du candidat :
— Master degree in Computer Science, Electronic Engineering or in (Applied) Mathematics

Formation et compétences requises :
— Solid programming skills in Python/Matlab
— Solid knowledge in deep learning with programming experience in Tensorflow or Pytorch
— Working knowledge in geometry modeling and statistics
— Good communication skills

Adresse d’emploi :
Bâtiment Clovis Vincent,
5 rue Kirschleger,
67085 Strasbourg Cedex FRANCE

Document attaché : 202101221241_PhD2021_Human4D.pdf

May
31
Mon
2021
A Complex Network-Based Framework for Resilience Characterisation and Optimisation of Large-scale Mu
May 31 – Jun 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/Doctorants

Laboratoire/Entreprise : LICIT – Lyon
Durée : Three years
Contact : angelo.furno@univ-eiffel.fr
Date limite de publication : 2021-05-31

Contexte :
In the last decade, the multi-modal transportation system of large cities has been profoundly jeopardized by a variety of sudden and extreme perturbations [1]. According to the World Economic Forum’s Global Risks Report 2019, extreme weather events are among the global risks of highest concern. Heavy precipitation, along with associated flooding in urban mega-regions, has been on the rise both in intensity and frequency under the dual forcings of climate change and rapid urbanization [2]. Similarly, in recent times, the COVID-19 pandemic has radically transformed human mobility habits, leading to globally unprecedented decline in transit ridership as well as drastic reduction of capacity of transit as a consequence of social distancing [3].

These factors of vulnerability related to transport are exacerbated by the fact that a transportation network is a complex entity composed of multiple interdependent subsystems (underground, train, tramway, bus transit, and road network), which are spatially constrained and that also rely on other urban infrastructure systems such as the power grid and communication networks. Thus, even limited disruptions in one component of this complex system, often triggered by exogenous hardly predictable events, can lead to a severe loss of lifeline functions via cascading failures. Furthermore, as urban transport systems are becoming increasingly connected and autonomous, one should also consider the growing threat of opportunistically targeted cyber-attacks designed to take advantage of natural hazard events [2].

In this context, this thesis proposes to investigate approaches based on complex network theory and network optimization towards: i) advancing the study of the resilience of multi-modal urban transport systems by means of an advanced multi-layer modelling of the urban transport network; ii) defining a tool to support the design of complex disruptive scenarios, coupling targeted attacks, weather-related phenomena as well as sudden variations of the demand and offer of the transport system induced by exogenous factors (floods, pandemic, etc.); iii) evaluating their impacts on the performance of the existing transit system in terms of complex networks metrics.
The thesis will also explore solutions for resilience enhancement based on (topological) reconfiguration scenarios via network optimization and integration of on-demand mobility facilities (e.g., park-and-ride) in order to support the dynamic adaptation of the system to such variations and rapid recovery from extreme perturbations with increased resilience.

The subject is at the interface between network science and transportation modelling, with possible applications in the field of operations research.

Sujet :
The thesis program will develop around the following scientific challenges:

Modelling and coding of the multi-modal transport network of the Lyon urban area, by focusing on its transit system (bus, tramway, underground) and the city road network. An approach based on multi-layer networks [1, 4, 5] will be leveraged by relying on data from the National Institute of Geography (IGN) and from the local provider of the transit system of Lyon (Keolis-Sytral). The augmentation of the model with travel demand information will be considered as an essential research direction, based on previous work from the team [6].

Identification of complex networks metrics to describe the resilience and robustness of the multi-modal transport network. In particular, the size of the giant connected component (GCC), network efficiency, adapted to the context of multi-layer modelling and cascading failures [2], will be a potential candidate for robustness quantification in dynamic configurations. Additional metrics related to vulnerability, robustness and resilience for characterizing the performance of transport systems under disturbance will be explored as well [7].

Definition of a framework for the injection of multiple joint failures in the multi-modal transport system (disruptive scenario testing). More traditional strategies based on random failures as well as more complex approaches involving flood probability modelling and high centrality node failures will be investigated to simulate high-risk scenarios and evaluate their impact on the aforementioned robustness metrics. The expected solutions should allow modelling of compound disruptions, including flood scenarios combined with targeted attacks as well as global reduction of the transit capacity or travel demand.

Analysis of optimisation strategies for improvement of network robustness. Solutions based on optimal graph augmentation [8, 9], identification of the most critical sub-network, as well as the optimal allocation of on-demand mobility facilities (e.g., park-and-ride facility location [10])  for increased network robustness will be investigated.

Profil du candidat :
The phd student should have an expertise on computer and network science as well as complex systems modelling.  Knowledge of traffic theory, data science and operations research tools will be considered as a plus.

Proven written and verbal communication skills with fluency in written and spoken English.

Formation et compétences requises :
Master two degree in Computer Science, Civil Engineering, Physics, Mathematics and Network Science.

Adresse d’emploi :
LICIT/IFSTTAR
25, avenue François Mitterrand
Cité des Mobilités
Case 24
F-69675 Bron Cedex
Tél. : +33 (0)4 72 14 24 70

LICIT/ENTPE
Rue Maurice Audin
F-69518 Vaulx-en-Velin Cedex
Tél : +33 (0)4 72 04 77 10

Deep learning and optimal sampling for computational imaging and ocean remote sensing
May 31 – Jun 1 all-day

Offre en lien avec l’Action/le Réseau : MACLEAN/– — –

Laboratoire/Entreprise : Lab-STICC
Durée : 36 mois
Contact : ronan.fablet@imt-atlantique.fr
Date limite de publication : 2021-05-31

Contexte :
This PhD position is opened in the framework of AI Chair OceaniX on physics-informed deep learning for ocean monitoring and surveillance.

The design of observing systems for ocean monitoring and surveillance is a key issue for a wide range of applications and scientific challenges. Multi-platform observing systems naturally arise as appealing solution to best exploit different observation modalities (e.g., satellite vs. in situ observation, surface vs. interior observation, passive vs. active sensors,….). In this context, the ability to design optimal monitoring and sampling strategies is a key challenge. The emergence of deep learning [1], especially end-to-end learning and deep generative models, provides new means to investigate this challenge jointly to the design of the inverse model, that is to say the design of optimal monitoring and sampling strategies so that one can retrieve the best reconstruction of some processes of interest and/or reduce the associated uncertainty.

Sujet :
In the framework of AI Chair OceaniX (https://cia-oceanix.github.io/about/), this PhD will investigate this generic issue and its application to ocean monitoring and surveillance through relevant case-studies (i.e., design of future earth observation missions, optimal synergy control between satellite platforms and in situ sensor networks, data-driven adaptive sampling strategies for in situ networks). From a methodological point of view, the proposed framework will explore synergies between Deep learning planning schemes [4], Bayesian variational setting [3], learning- based data assimilation models [2] and solvers and deep generative models, especially GANs [5]. The expected outcome is the ability to jointly learn observation operators, priors and solvers w.r.t. performance measure for hidden dynamics. Through relevant constraints (e.g., sparsity priors) on the observation operators, we expect to derive the targeted optimal measurement and sampling strategies.
Numerical experiments will be carried out initially on toy examples (e.g., low-dimensional chaotic systems). OSSEs (Observing System Simulation Experiments) generated from realistic numerical simulations will also be considered. Applications to real datasets might also be of interest in the last stage of the PhD.

Profil du candidat :
Applicants must hold a M.Sc degree in signal processing, mathematics or physics.

Formation et compétences requises :
Background in machine learning, deep learning and applied statistics expected.
Knowledge and experience with deep learning frameworks would be a plus.

Adresse d’emploi :
Brest

Document attaché : 202104161258_offre_these_en.pdf

PhD Thesis in AI for Health
May 31 – Jun 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/Doctorants

Laboratoire/Entreprise : Inria Paris et Centre de Recherche des Cordeliers
Durée : 3 ans
Contact : adrien.coulet@inria.fr
Date limite de publication : 2021-05-31

Contexte :
Nous cherchons le bon candidat pour une thèse en informatique avec de l’apprentissage, de la représentation de connaissances, et leurs applications en santé.
La thèse se fera à Paris, dans l’équipe HeKA commune à Inria, Inserm et Université de Paris (https://team.inria.fr/heka/).

N’hésitez pas à transférer ce message.
Si vous êtes intéressés, contactez-nous svp (antoine.neuraz@aphp.fr, adrien.coulet@inria.fr), si possible avant le 18 mai.

Sujet :
Le titre de la thèse : “Apprentissage de processus de décision diagnostique: Expérimentations pour le diagnostic des affections fréquentes à partir de Dossier Patients Informatisés”
Le sujet : https://team.inria.fr/heka/files/2021/05/phd_subject_learn_diagnostic_processes.pdf
Plus d’infos : https://jobs.inria.fr/public/classic/fr/offres/2021-03675

Profil du candidat :
Plusieurs profils sont possibles

Formation et compétences requises :
M2 en informatique ou mathématique appliquées ou santé publique ou bioinformatique

Adresse d’emploi :
Paris

Stratégie basée IA et connaissances pour la création de contextes immersifs pour films
May 31 – Jun 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : XLIM/LIAS
Durée : 3 ANS
Contact : chaker.larabi@univ-poitiers.fr
Date limite de publication : 2021-05-31

Contexte :
Les technologies immersives font partie désormais de notre quotidien et permettent d’améliorer de manière significative l’expérience visuelle des utilisateurs. Bien que notre perception visuelle ne soit très précise que sur une petite portion de la rétine incluant les zones fovéale et para-fovéale (approx. 10°) riches en photorécepteurs de type cône, la vision périphérique (proche, moyenne et lointaine) composant la majorité du champ visuel humain, joue un rôle prépondérant dans la sensation d’immersion. En d’autres termes, l’effet immersif n’est atteint que si le champ visuel est entièrement stimulé. Toutefois, la sollicitation de la vision périphérique pourrait, dans des conditions non contrôlées, générer l’inverse de l’effet escompté et ce en attirant le regard du spectateur vers cette dernière, cassant ainsi le cycle immersif. Cela impose donc de disposer de mécanismes étudiés et éprouvés afin d’éviter d’aboutir à de telles situations.
Par ailleurs, l’immersion est également liée à l’exploration visuelle dans des environnements immersifs. L’analyse du parcours visuel durant l’expérience de l’utilisateur permet de comprendre l’importance des objets composant la scène visualisée y compris les éléments extra-fovéaux. La prédiction de ce type de parcours permet indéniablement d’intégrer la capacité à détecter les éléments pouvant induire la sensation d’immersion et ceux qui la réduisent.
Parmi les technologies existant sur le marché, la technologie ICE IMMERSIVE® utilisée dans les salles ICE, exploitées par le groupe CGR, permet de visionner des films en immersion totale, grâce aux effets lumineux subtils diffusés sur des panneaux LED installés de chaque côté de l’auditorium et à l’éclairage généré par des projecteurs dédiés créant ainsi une atmosphère visuelle favorisant la sensation d’immersion. Les effets lumineux représentent une combinaison synchrone de couleurs et de formes obtenues à partir du contenu du film projeté à l’écran. Ils sont générés grâce à des scripts spécifiques à chaque film, ce qui ne permet pas la généralisation du concept à d’autres films.

Sujet :
Dans cette collaboration entre le groupe CGR et les laboratoires LIAS et XLIM, l’objectif est de définir une stratégie pour la création du contexte immersif (effets lumineux) à partir du contenu de la scène projeté et en se basant sur l’intelligence artificielle et les ontologies. L’idée est de construire un modèle d’apprentissage profond prenant en compte le contenu coloré dominant de la scène, les formes la composant, ainsi que le changement des différentes intensités du son pour générer de manière autonome, efficace et harmonieuse des effets lumineux garantissant un effet immersif

au spectateur. Actuellement, le groupe CGR reçoit les films avant leur sortie et une équipe de monteurs/graphistes a pour tâche de créer le contenu ICE à partir des images du film qui doit satisfaire les besoins d’immersion des spectateurs. L’objectif de cette thèse est de proposer une automatisation de tout ou partie de ce travail manuel.
Pour ce faire le candidat contribuera à :
• Comprendre et formaliser l’expérience manuelle de création du contenu ICE.
• Définir une ontologie pour décrire d’une manière consensuelle un film afin d’expliciter le domaine de l’étude.
• Constituer d’une base d’images dédiée à l’apprentissage du modèle et se basant sur l’expérience du groupe CGR tout en extrayant leurs métadonnées associées.
• Concevoir un modèle d’apprentissage profond prenant en entrée tous les paramètres intervenant dans la définition des effets lumineux et notamment les modèles perceptuels associés. La mise en place de ce modèle nécessite une méthodologie compréhensive permettant de bien décrire toutes les étapes de ce modèle afin de faciliter son explicabilité auprès de la CGR.
• Développer une procédure de test et de validation permettant de mesurer la qualité de l’expérience des spectateurs, suivant des paradigmes normalisés afin de déterminer le confort, le niveau d’immersion, la qualité et de contrôler les possibles effets sanitaires générés.

Profil du candidat :
Nous recherchons un étudiant ayant un Master dans les disciplines suivantes : informatique, traitement du signal et des images, apprentissage automatique ou disciplines connexes, ayant des compétences dans au moins l’un des domaines suivants :
• Bonne connaissance de modélisation ontologique.
• Bonne connaissance du traitement d’images et de l’apprentissage
automatique.
• Excellentes compétences en programmation (Python, C, C++,
MATLAB).
• Des connaissances sur la perception visuelle ou la mesure de
l’expérience utilisateur seraient appréciées.

Formation et compétences requises :
Nous recherchons un étudiant ayant un Master dans les disciplines suivantes : informatique, traitement du signal et des images, apprentissage automatique ou disciplines connexes, ayant des compétences dans au moins l’un des domaines suivants :
• Bonne connaissance de modélisation ontologique.
• Bonne connaissance du traitement d’images et de l’apprentissage
automatique.
• Excellentes compétences en programmation (Python, C, C++,
MATLAB).
• Des connaissances sur la perception visuelle ou la mesure de
l’expérience utilisateur seraient appréciées.

Adresse d’emploi :
Lieu de la thèse: Groupe CGR (La Rochelle) et les laboratoires XLIM et LIAS (Site du Futuroscope, Poitiers)

Document attaché : 202104282208_Sujet_CIFRE_CGR_LIAS_XLIM.pdf

Deep Geodesic Learning for Medical Imaging
May 31 @ 15:39 – 16:39

Offre en lien avec l’Action/le Réseau : – — –/Doctorants

Laboratoire/Entreprise : IMT Atlantique
Durée : 36 mois
Contact : francois.rousseau@imt-atlantique.fr
Date limite de publication : 31/05/2021

Contexte :
La recherche à l’IMT Atlantique concerne près de 800 personnes, dont 290 enseignants et chercheurs et 300 doctorants, et porte sur les technologies numériques, l’énergie et l’environnement. Il couvre toutes les disciplines (des sciences physiques aux sciences humaines et sociales en passant par celles de l’information et du savoir) et couvre tous les domaines des sciences et des technologies de l’information et de la communication.

La thèse se déroulera au laboratoire LaTIM (INSERM U1101), sur le campus de Brest, sous la direction de François Rousseau et Douraied Ben Salem.

Sujet :
L’apprentissage statistique et plus particulièrement l’apprentissage profond modifient actuellement le paysage méthodologique pour aborder les problèmes d’analyse et de modélisation des données. Grâce au développement de nouveaux algorithmes, à la multiplication des ensembles de données disponibles et à une puissance de calcul décuplée, il est actuellement possible d’aborder des tâches qui semblaient impensables il y a quelques années (en vision par ordinateur, en traitement du langage naturel ou en modélisation générative). Cependant, malgré des performances nouvelles indéniables, il apparaît nécessaire de développer un cadre mathématique rigoureux pour étudier les propriétés de ces approches et leurs limites, notamment dans des domaines sensibles comme l’imagerie médicale. Ce travail de thèse s’inscrira dans ce contexte, avec l’objectif de développer des approches robustes et fiables d’apprentissage pour l’étude de pathologies pour lesquelles les jeux de données sont de taille limitée.

Parmi les efforts de recherche actuels visant à fournir des bases mathématiques aux architectures d’apprentissage profond, deux approches fournissent un cadre mathématique pour l’étude de ces techniques modernes d’apprentissage machine : les systèmes dynamiques et le transport optimal. Plus spécifiquement, des travaux récents ont exploré les liens entre les architectures de réseau populaires telles que les réseaux résiduels (ResNet) et les systèmes dynamiques décrits par des équations différentielles ordinaires. La dérivation de telles formulations mathématiques est également au cœur de l’intérêt croissant pour les cadres de transport optimal pour l’apprentissage machine, par exemple pour l’adaptation de domaine ou la modélisation générative.

De manière complémentaire, la communauté des équations différentielles ordinaires ou dérivées partielles (EDO et EDP) a commencé à envisager la puissance des réseaux neuronaux profonds pour résoudre ces équations lorsqu’elles sont exprimées dans des dimensions élevées ou dans des conditions aux limites complexes, ou même découvrir des dynamiques physiques inconnues en les apprenant à partir de données. Des connexions ont été établies entre les méthodes d’assimilation variationnelle basées sur des méthodes adjointes et la dynamique interne des réseaux de neurones.

Ce travail de thèse vise à apporter une double contribution sur ces aspects : 1) En explorant comment la formulation dynamique du processus d’apprentissage peut aider à mieux comprendre les architectures neurales profondes, ainsi qu’en proposant de nouveaux paradigmes d’apprentissage basés sur la régularisation des flux d’information ; 2) En tirant parti des nouvelles architectures neuronales et des données disponibles pour concevoir de nouveaux modèles de simulation dynamique basés sur les données. L’application privilégiée concernera l’imagerie médicale et plus spécifiquement : 1) les problèmes de régression d’images (tels que la super-résolution ou la synthèse d’images) et 2) l’étude de phénomènes dynamiques tels que le mouvement articulaire dans une séquence IRM dynamique.

Ces travaux s’inscrivent dans le cadre d’étude du laboratoire sur l’analyse de la marche chez l’enfant afin de développer des méthodes d’analyse de données facilitant le diagnostic médical et quantifiant l’évolution du suivi thérapeutique permettant un choix optimal de celui-ci. Elle sera réalisée en collaboration rapprochée avec le service de radiologie, par le biais notamment de la co-direction avec Douraied Ben Salem (PUPH) et les cliniciens du service de rééducation fonctionnelle du CHU de Brest.

Profil du candidat :
Les candidats doivent être titulaires d’un diplôme de master (ou ingénieur) en traitement des images ou en mathématiques.

Formation et compétences requises :
Les compétences requises pour mener à bien ce travail concernent l’apprentissage machine, le traitement d’images et les mathématiques appliquées, et plus particulièrement la connaissance en modélisation de systèmes dynamiques. Des connaissances en informatique et en programmation (Python) seront également requises afin de développer les algorithmes associés.

Adresse d’emploi :
IMT Atlantique, Campus de Brest.

Document attaché : 202104191440_2021-AI@IMT_french.pdf

Reconstruction haute-résolution de données IRM pour l’étude du développement cérébral
May 31 @ 15:41 – 16:41

Offre en lien avec l’Action/le Réseau : – — –/Doctorants

Laboratoire/Entreprise : IMT Atlantique
Durée : 36 mois
Contact : francois.rousseau@imt-atlantique.fr
Date limite de publication : 31/05/2021

Contexte :
La recherche à l’IMT Atlantique concerne près de 800 personnes, dont 290 enseignants et chercheurs et 300 doctorants, et porte sur les technologies numériques, l’énergie et l’environnement. Il couvre toutes les disciplines (des sciences physiques aux sciences humaines et sociales en passant par celles de l’information et du savoir) et couvre tous les domaines des sciences et des technologies de l’information et de la communication.

La thèse se déroulera au laboratoire LaTIM (INSERM U1101), sur le campus de Brest, sous la direction de François Rousseau et Sylvain Faisan (Université de Strasbourg).

Sujet :
L’étude du développement cérébral périnatal à partir de données IRM implique plusieurs défis majeurs en matière d’analyse d’images. Il s’agit de développer des approches appropriées capables de faire face à des mouvements du sujet, à un faible rapport contraste/bruit, à un changement rapide de la taille des structures cérébrales, à des changements complexes de luminosité en IRM structurelle reflétant la maturation cérébrale et à une grande variabilité des formes anatomiques. En raison de ces spécificités, les données d’IRM cérébrales périnatales nécessitent des algorithmes dédiés et ne peuvent être traitées avec les méthodes traditionnelles développées pour les données adultes.

L’un des éléments clés des études morphométriques est la définition d’un système de coordonnées de référence avec une résolution suffisamment fine pour l’analyse quantitative du développement cérébral. Nos récents travaux sur les approches reposant sur l’apprentissage profond ont démontré le potentiel de ces techniques de super-résolution et de segmentation sur des données néonatales cliniques pondérées en T2 basse résolution (voir Figure 1).

Ce travail de thèse vise à apporter une contribution sur la correction de mouvement et la reconstruction haute résolution de données IRM cérébrales périnatales : 1) en développant une approche de correction de mouvement et d’intensité reposant uniquement sur les intersections entre coupes orthogonales (afin de ne pas dépendre d’une étape itérative de reconstruction), 2) en mettant en place une formulation variationnelle pour la reconstruction haute-résolution dans le cadre de l’apprentissage profond afin d’apprendre conjointement le terme de régularisation (a priori) et le solveur associé au problème de minimisation [Fablet2020].

Ces travaux s’inscrivent dans le cadre d’étude du laboratoire sur le handicap chez l’enfant afin de développer des méthodes d’analyse de données facilitant le diagnostic médical et quantifiant l’évolution du suivi thérapeutique permettant un choix optimal de celui-ci.

Profil du candidat :
Les candidats doivent être titulaires d’un diplôme de master (ou ingénieur) en traitement des images ou en mathématiques.

Formation et compétences requises :
Les compétences requises pour mener à bien ce travail concernent l’apprentissage machine, le traitement d’images, et les mathématiques appliquées. Des connaissances en informatique et en programmation (Python) seront également requises afin de développer les algorithmes associés.

Adresse d’emploi :
IMT Atlantique, Campus de Brest

Document attaché : 202104191449_2021-Reconstruction_french.pdf

Apprentissage pour la modélisation de la marche chez l’enfant
May 31 @ 15:42 – 16:42

Offre en lien avec l’Action/le Réseau : – — –/Doctorants

Laboratoire/Entreprise : IMT Atlantique
Durée : 36 mois
Contact : francois.rousseau@imt-atlantique.fr
Date limite de publication : 31/05/2021

Contexte :
La recherche à l’IMT Atlantique concerne près de 800 personnes, dont 290 enseignants et chercheurs et 300 doctorants, et porte sur les technologies numériques, l’énergie et l’environnement. Il couvre toutes les disciplines (des sciences physiques aux sciences humaines et sociales en passant par celles de l’information et du savoir) et couvre tous les domaines des sciences et des technologies de l’information et de la communication.

La thèse se déroulera au laboratoire LaTIM (INSERM U1101), sur le campus de Brest, sous la direction de François Rousseau et Sylvain Brochard, encadrée par Mathieu Lempereur.

Sujet :
Les troubles musculo-squelettiques ont un impact important sur la qualité de vie ainsi que sur les coûts de santé. Un diagnostic clinique précis et un traitement spécifique au patient sont les domaines clés qui jouent un grand rôle dans la prise en charge des troubles musculo-squelettiques. Dans le contexte de la paralysie cérébrale, il est nécessaire d’évaluer en permanence l’état clinique de l’enfant, les objectifs du traitement et la planification des futurs traitements. L’outil d’évaluation le plus courant est l’examen clinique de l’enfant, qui évalue la mobilité articulaire, le tonus, la spasticité, la force musculaire et le degré de contrôle sélectif des muscles. L’analyse clinique de la marche permet d’étudier cette nature dynamique de la paralysie cérébrale et est généralement acceptée pour soutenir la décision de traitement clinique des patients. L’analyse de la marche clinique est un outil bien établi pour l’évaluation quantitative des troubles de la marche, permettant un diagnostic fonctionnel, une évaluation pour la planification du traitement et le suivi de l’évolution de la maladie. L’objectif le plus important de l’analyse de la marche en 3D chez les enfants atteints de paralysie cérébrale est d’évaluer la gravité, l’étendue et la nature des déficits fonctionnels afin de soutenir la prise de décision thérapeutique.

Ce travail de thèse s’intéressera au développement de méthodes axées sur les données pour combiner les données dynamiques de l’IRM [1] avec les données des capteurs externes pour un modèle anatomique pertinent spécifique au patient pendant la marche. L’objectif ici est d’utiliser des données in-vivo spécifiques au patient et d’éviter ainsi l’utilisation de modèles statistiques, afin d’obtenir des représentations réalistes des comportements de marche des patients atteints de paralysie. La première étape consistera à apprendre un ensemble de mouvements réalistes à partir des données IRM dynamiques in-vivo. Sur la base du cadre log-Euclidien utilisé dans notre étude précédente [2] et de l’ensemble des structures segmentées d’intérêt, nous prévoyons de générer un ensemble de données spécifiques au patient pour apprendre le lien entre une image IRM et la forme de la surface externe du corps. Il s’agira d’étendre nos travaux précédents sur les réseaux génératifs pour la super-résolution afin de relier les images IRM et le nuage de points de la surface du corps. Ensuite, la deuxième étape se concentrera sur l’enregistrement de la surface corporelle estimée à partir des capteurs de mouvement externes pendant la marche avec les données IRM anatomiques (et plus particulièrement une segmentation de la surface corporelle externe). À cette fin, nous nous appuierons sur l’étape d’apprentissage précédente pour générer des images IRM spécifiques au patient à partir d’un ensemble de points fournis par les capteurs externes. Nous étudierons également l’utilisation de la régularisation temporelle dans une formulation de minimisation de l’énergie pour estimer des séquences temporelles lisses de données anatomiques IRM à partir d’une séquence de nuages de points. L’approche proposée conduira à l’estimation de données IRM dynamiques temporelles haute résolution d’un enfant qui marche, montrant les articulations en mouvement et les caractéristiques biomécaniques en temps réel.

Ces travaux s’inscrivent dans le cadre d’étude du laboratoire sur l’analyse de la marche chez l’enfant afin de développer des méthodes d’analyse de données facilitant le diagnostic médical et quantifiant l’évolution du suivi thérapeutique permettant un choix optimal de celui-ci. Elle sera réalisée en collaboration rapprochée avec le service de radiologie et les cliniciens du service de rééducation fonctionnelle du CHU de Brest, par le biais notamment de la co-direction avec Sylvain Brochard (PUPH) et l’encadrement de Mathieu Lempereur (IR).

Profil du candidat :
Les candidats doivent être titulaires d’un diplôme de master (ou ingénieur) en traitement du signal ou en mathématiques.

Formation et compétences requises :
Les compétences requises pour mener à bien ce travail concernent l’apprentissage machine, le traitement du signal et les mathématiques appliquées, et plus particulièrement la connaissance en modélisation de systèmes dynamiques. Des connaissances en informatique et en programmation (Python) seront également requises afin de développer les algorithmes associés.

Adresse d’emploi :
IMT Atlantique, Campus de Brest

Document attaché : 202104191443_2021-AI4Child-Sujet_These_GAIT_french.pdf

Modélisation du développement cérébral à partir de données IRM
May 31 @ 15:42 – 16:42

Offre en lien avec l’Action/le Réseau : – — –/Doctorants

Laboratoire/Entreprise : IMT Atlantique
Durée : 36 mois
Contact : francois.rousseau@imt-atlantique.fr
Date limite de publication : 31/05/2021

Contexte :
La recherche à l’IMT Atlantique concerne près de 800 personnes, dont 290 enseignants et chercheurs et 300 doctorants, et porte sur les technologies numériques, l’énergie et l’environnement. Il couvre toutes les disciplines (des sciences physiques aux sciences humaines et sociales en passant par celles de l’information et du savoir) et couvre tous les domaines des sciences et des technologies de l’information et de la communication.

La thèse se déroulera au laboratoire LaTIM (INSERM U1101), sur le campus de Brest, sous la direction de François Rousseau et Julien Lefèvre.

Sujet :
La croissance du cerveau humain s’accompagne du plissement du cortex cérébral, qui s’effectue selon un mode hiérarchique au cours des semaines de gestation 16 à 40, les plis primaires étant les plus précoces et les plus conservés, puis les plis secondaires s’élaborant sur ces plis, etc. Des études récentes ont révélé que non seulement les processus moléculaires et cellulaires mais aussi les forces mécaniques jouent un rôle important dans la formation des circonvolutions corticales.

Il a été montré que les modèles mécaniques basés sur l’hypothèse d’une croissance tangentielle différentielle du cortex pouvaient produire des modèles de plissement réalistes lorsqu’ils sont appliqués aux données IRM du cerveau fœtal humain. Les simulations numériques 3D de la croissance du cerveau démontrent que l’expansion tangentielle relative du cortex cérébral, limitée par la matière blanche, génère une contrainte de compression, ce qui entraîne la création de sillons similaires à ceux du cerveau fœtal en développement.

Ces modèles de plissement cortical sont influencés par divers paramètres physiques, comme par exemple l’épaisseur corticale initiale, la géométrie initiale et le taux de croissance relative. Outre ces observations récentes, de nombreuses questions restent ouvertes concernant la morphogenèse des modèles de plissement, notamment les liens entre les paramètres physiques des modèles de simulation et les plis observés dans les données IRM in vivo. Une compréhension approfondie de ces paramètres peut contribuer de manière significative à la compréhension des pathologies associées aux changements caractéristiques du plissement cortical. Par exemple, les malformations de polymicrogyrie, de pachygyrie et de lissencéphalie peuvent être accompagnées d’autisme, de schizophrénie ou d’épilepsie.

Ce travail de thèse vise à apporter une contribution sur la compréhension du développement cérébral et plus particulièrement du plissement cortical : 1) en explorant une modélisation physique fine du processus mécanique avec l’apport d’informations anatomiques issues de données IRM fœtales, 2) en développant de nouvelles mesures de quantification du plissement cortical (profondeur, orientation, courbure) adapté à cette étape du développement cérébral, 3) en apprenant la dynamique du plissement à l’aide de méthodes d’apprentissage profond à l’aide des données IRM.

Ces travaux s’inscrivent dans le cadre d’étude du laboratoire sur le handicap chez l’enfant afin de développer des méthodes d’analyse de données facilitant le diagnostic médical et quantifiant l’évolution du suivi thérapeutique permettant un choix optimal de celui-ci.

Profil du candidat :
Les candidats doivent être titulaires d’un diplôme de master (ou ingénieur) en traitement des images, en biomécanique ou en mathématiques.

Formation et compétences requises :
Les compétences requises pour mener à bien ce travail concernent l’apprentissage machine, le traitement d’images, les mathématiques appliquées, et les modèles biomécaniques. Des connaissances en informatique et en programmation (Python) seront également requises afin de développer les algorithmes associés.

Adresse d’emploi :
IMT Atlantique, Campus de Brest

Document attaché : 202104191446_2021-Brain_Growth_Modeling_french.pdf

Jun
1
Tue
2021
Thèse pluridisciplinaire : Droit et Data science
Jun 1 – Jun 2 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Université Paris-Dauphine
Durée : 3 ans
Contact : elsa.negre@dauphine.fr
Date limite de publication : 2021-06-01

Contexte :
L’objet de ce projet de recherche doctorale serait d’imaginer un système de recommandations contextuelles à partir de l’analyse de la manière dont quelques pays européens ont géré la crise sanitaire du Covid-19. Le point de départ serait donc d’élaborer une base de données juridiques de droit comparé sur la gestion de cette crise susceptible d’alimenter un système de recommandations contextuelles.

Un système de recommandations tout comme le droit comparé peut reposer sur une analyse contextuelle pouvant aider les parties prenantes à trouver une information pertinente pour améliorer leur prise de décision. Il s’agit donc d’une aide automatisée à la prise de décision qui, elle, reste à la charge de la partie prenante.

Un tel projet part du paradigme qu’un système de recommandations suppose d’extraire d’une masse de données, des informations, et de créer de la connaissance. Or l’analyse de droit comparé repose avant tout sur la connaissance de la culture juridique des Etats. Il s’agira donc de voir dans quelle mesure un système de recommandations contextuelles pourrait venir en support des analyses de droit comparé.

Sujet :
Problématique : Peut-on imaginer un système de recommandation contextuel comme support au droit comparé ? Illustrations autour de la gestion de la pandémie Covid-19 dans quelques États européens.

Profil du candidat :
Le candidat devra être à l’aise avec le Droit comparé ainsi qu’avec la science des données.

Formation et compétences requises :
Master 2 minimum

Adresse d’emploi :
Université Paris-Dauphine, Paris, France

Document attaché : 202105191201_PhD-Law-IT.pdf

Jun
2
Wed
2021
Systèmes intelligents pour la transmission des Humanités numériques et pour la recherche en santé
Jun 2 – Jun 3 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : ELLIADD
Durée : 36 mois
Contact : thibaud.hulin@univ-fcomte.fr
Date limite de publication : 2021-06-02

Contexte :
Cette thèse sera effectuée en co-tutelle USA (NY) / France (UFC).

IMPORTANT : le dossier peut être déposé jusqu’au 4/6 via ce lien : https://www.adum.fr/as/ed/voirproposition.pl?langue=&site=lecla&matricule_prop=36430

Le déploiement du web bouleverse notre rapport au savoir et notre métier d’enseignant et de chercheur. Accompagnées d’agents intelligents capables d’effectuer des raisonnements à partir d’ontologies (représentations structurées d’un domaine), les plateformes sémantiques contribuent à construire cet espace commun de la connaissance au XXIe siècle : les « humanités numériques » (HN).
Le thème des HN rassemble les travaux de chercheurs qui interrogent notre besoin de transmettre ce socle commun et des compétences de haut niveau cognitif. Ce champ a aussi besoin d’être mieux structuré, clarifié, stimulé et partagé. Sa formalisation peut permettre d’étudier les concepts et les liens entre compétences (Ageeva et al., 2019). Or, si nous savons produire des ontologies de compétences (Desmoulins, 2010), ou utiliser des ontologies dans le domaine des HN (Toyoshima, 2019), nous ne disposons ni d’ontologies, ni de plateforme de référence dans le champ « humanités numériques et éducation » (HNE). Enfin, les données structurées issues des SHS sont rarement valorisées comme objets pédagogiques.
La recherche en intelligence artificielle (IA) s’est fortement développé ces dernières années (plan n’investissement français 1,5 md € en France en 2018). Le cadre d’applications ou framework Whyis 1
est une solution pour construire une plateforme intelligente dédiées aux HNE. Il permet d’extraire d’une resource une unité minimale d’information, la nanopublication, pour effectuer des inférences. Il sait traiter des sources de données hétérogènes ainsi que le langage naturel, manipuler des graphes de connaissances communes pour répondre aux questions des enseignants et des chercheurs. Les autres frameworks concurrents (Stardog, Ontowiki, Callimachus, Virtuoso Openlink Data Spaces, Vitro) n’offrent pas autant de services.
Bien qu’intéressant pour structurer les HN, le design de services intelligents ne fait pas l’objet d’une méthode de construction universelle : il dépend de cas d’utilisation propres à différents terrains, et qu’il convient de comparer afin d’en extraire les usages intéressants. L’expérience de Whyis est acquise dans les domaines du traitement des nanopolymères, de la politique du spectre et surtout de l’informatique de santé (McCusker et al., 2018). Pour en assurer le développement continu, il est donc souhaitable de croiser les cas d’utilisation entre usages en santé et en HNÉ.

Sujet :
Problématique. Comment construire un système d’IA pour stimuler les pratiques enseignantes et de recherche en HN, et de valoriser les corpus numérisés comme objets pédagogiques à partir d’une approche comparée entre HNE et santé ?

Enjeux. Le thème de la transmission des HN revêt une grande importance pratique, professionnelle et citoyenne pour tous les jeunes et les adultes en formation continue. L’identification de compétences de haut niveau est stratégique pour promouvoir des compétences durables. Les HN est un champ à structurer pour partager ou valoriser les innovations pédagogiques, mais aussi la recherche sur ces innovations. Des scénarios pédagogiques seront proposés pour valoriser les corpus de données, avec une attention particulière en direction de ceux produits en SHS y compris en Bourgogne-Franche-Comté. Grâce à l’analyse comparative des usages et la mise à disposition des services développés vers la communauté Whyis, le travail sur les services et cas d’utilisation d’une plateforme sémantique dans le domaine HN impactera directement le domaine des sciences de la santé et de la recherche sur le cancer (ex. : nouveaux services de recherche d’information et de visualisation). Enfin, cette recherche contribuera à développer le web de demain et ses standards au niveau international.

Méthodologie et calendrier. Après un état de l’art (1/09/21 – 20/12/21), une première étape consistera à construire l’ontologie du champ HNE via des séances de focus groupes avec les praticiens et chercheurs du projet HUMANE2, et avec l’équipe de l’université de Laval (Canada) : jusqu’au
20/12/2022.
L’étape 2 vise à construire les données. Elle concerne (a) l’indexation de ressources pédagogiques, et le recensement des recherches sur notre thème ; (b) la valorisation pédagogique d’archives. Les enseignants sont sollicités pour décrire leurs pratiques via un formulaire. Ces activités sont développées par l’équipe du projet HUMANE et de ses correspondants internationaux : 5/1/2022 – 20/12/2022.
La participation à ces groupes par la ou le doctorant lui permettra d’intervenir sur l’étape de design de la plateforme, par la formalisation des cas d’utilisation et le design de services. Elle ou il devra prendre en compte à la fois les besoins en HN et l’expérience acquise dans le champ de la santé. Le transfert d’expérience sera fait via l’équipe américaine à l’IPR 3 en co-tutelle de thèse. Jusqu’au 20/03/23 (3 itérations).
La quatrième étape, collaborative, vise à implanter l’ontologie et à développer les services de la plateforme, dont la connexion à des corpus de données existants. Selon un cycle de développement agile, du 1/01/22 au 20/03/23 (3 itérations).
Lors de l’étape d’évaluation, des tests utilisateurs seront réalisés avec les enseignants, ainsi que des analyses des traces d’activité et des enquêtes d’évaluation. Ce projet bénéficiera d’études de type eye- tracking grâce à l’expertise du laboratoire ELLIADD en ergonomie et conception des systèmes.
Enfin une étape d’observation des pratiques en HN permettra aux chercheurs du projet HUMANE d’évaluer et de mettre à jour l’ontologie de compétences, résultats auxquels le doctorant aura accès.

3. Objectifs et résultats escomptés
La thèse a pour but de structurer le champ des HNE et d’initier de nouvelles recherches dans le domaine via des échanges à l’international. Ceci sera rendu possible grâce à la constitution déjà lancée d’un corpus de ressources HNE (pédagogiques, projets, institutions ou personnes), ou de liens vers des corpus numérisés. L’objectif est à la fois de dynamiser l’innovation pédagogique, de rendre davantage visible et de valoriser les corpus produits et les recherches effectuées.
En identifiant des compétences de haut niveau à l’intérieur d’une ontologie du champ, ce projet stimulera et développera une didactique du domaine et soutiendra les liens entre cognition et informatique.
La plateforme sémantique permettra d’améliorer la recherche d’information, tant pour trouver une ressource que pour visualiser les données et en extraire de nouvelles connaissances. Le design de services de la plateforme et la formalisation des cas d’utilisation transmettront dans les deux sens l’expérience acquise via Whyis entre le champ de la santé vers celui des HN. Enfin, ce projet contribue à la construction du web sémantique et des services qu’il nous apportera demain.

4. Laboratoire de rattachement et Insertion dans les axes du labo, de I-SITE et des MSH BFC
Ce projet s’inscrit naturellement dans l’axe 1 de l’I-SITE consacré aux systèmes intelligents, ainsi que dans l’axe 3 sur la santé grâce à l’approche comparative des usages.
Il s’inscrit dans le paradigme de la transmission des pôles thématiques de la fédération des MSH BFC qui soutient aussi de nombreux corpus en SHS.
Rattaché au laboratoire ELLIADD, ce projet concerne tous ses pôles : la valorisation des corpus dans le champ de l’enseignement des HN mobilisera les pôles AL, DTMS et LLC ; l’expérience en HN et en web sémantique mobilise le pôle CCM et sur son axe transversal SEISM portant sur la recherche en éducation ; le design de la plateforme et son évaluation, le pôle ERCOS. 7 chercheurs ELLIADD travaillent déjà au projet HUMANE. Il s’agit donc d’un véritable programme de recherche structurant.

5. Partenariats, environnement scientifique et co-tutelle internationale
Le travail du doctorant s’inscrira dans le cadre des réseaux de travail stimulants et porteurs suivants.
USA, état de New-York : la co-tutelle de thèse s’effectuera via le Rensselaer Polytechnic Institute (RPI) et son réseau « Tetherless World Constellation »4, et qui développe WhyIs et est membre du Web
Science Trust (fondé par Tim Berners-Lee). À noter que Whyis est développé dans le cadre de l’Institute for Data Exploration and Applications (RPI-IDEA), bien sûr utilisé dans le cadre de la recherche sur le
COVID-19. La co-directrice est Deborah L. McGuinness, contributrice du W3C, leader dans le web sémantique et en sciences cognitives. La co-tutelle impliquera l’équipe du RPI et non pas seulement la directrice de thèse, en particulier M. Jamie McCusker, dir. Data Operation et principal développeur du projet Whyis.
Canada, Laval : la Faculté des Sciences de l’Éducation de l’université de Laval5 apportera son expertise au niveau de l’articulation des compétences et de la définition des curriculums en HN, via Sylvie Barma et Thérèse Laferrière avec laquelle l’équipe du GIS 2IF travaille déjà (réseau Périscope,
64 chercheuses et chercheurs).
France, projet HUMANE et le réseau national des Groupes de Travail Numériques (gtNum) : ce projet de thèse sera effectué en collaboration avec le Groupe d’Intérêt Scientifique Innovation, Interdisciplinarité et Formation, le GIS 2IF7, fédère 9 laboratoires de recherche. Il porte le projet
« Humanités Numériques pour l’Éducation » (HUMANE) 8, financé par la Direction Numérique pour l’Éducation du Ministère de l’Éducation Nationale, dans le cadre du gtNum 7 « Humanités numériques,
entre recherche et éducation ». 5 académies sont impliquées dont Besançon.
Le projet HUMANE a enfin comme partenaires Canopé, la Dir. Du Numérique de la région Franche-Comté, et l’association internationale francophone Humanistica. La co-animation au niveau national est assurée par T. Hulin et B. Drot-Delange ; T. Hulin, qui dirigera cette thèse en tant que membre d’ELLIADD et co-animateur académique pour la Franche-Comté (avec C. Reffay).
L’université de Bourgogne est membre fondateur du GIS 2IF grâce à l’implication du CIMEOS ces dernières années. Une collaboration est d’ailleurs en cours entre l’IUT de Belfort et ELLIADD, via T.
Hulin, et l’IUT de Dijon-Auxerre dans le cadre du Learning Lab, et grâce au support du CIMEOS (O. Galibert), pour favoriser la transmission des compétences en humanités numériques entre les deux sites.

Profil du candidat :
Connaissance ou expérience dans le web sémantique, bon niveau de développement informatique.

Formation et compétences requises :
Formation Master 2 ou équivalent avec un excellent dossier (mention au master, très bon stage). Bon ou très bonne maîtrise de l’anglais et du français.

Adresse d’emploi :
UFR STGI – université de Franche-Comté
4 Place Lucien Tharradin, 25200 Montbéliard

Document attaché : 202105200809_sujetThese_ED592_36430(1).pdf

Jun
15
Tue
2021
Offre de thèse – Fully-funded PhD studentship in text mining @INRAE
Jun 15 – Jun 16 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : MaIAGE-INRAE et TETIS-CIRAD
Durée : 3 ans
Contact : claire.nedellec@inrae.fr
Date limite de publication : 2021-06-15

Contexte :
We are seeking a highly motivated PhD candidate within the framework of the research project “Information extraction from textual data for epidemiosurveillance for plant health”. The central aim of the research project is to develop corpus- and ontology-based NLP methods to acquire knowledge on plant health for epidemiosurveillance. The thesis is part of the ANR project BEYOND Building epidemiological surveillance and prophylaxis with observations both near and distant. [1]
The studentship will be affiliated to the laboratory MaIAGE [2] at Inrae research center in Jouy-en-Josas University of Paris-Saclay and to the graduate school Computer Science and MISCA group at TETIS [3].
For more information, please see the full announcement here:
https://www.adum.fr/as/ed/voirproposition.pl?site=PSaclay&matricule_prop=36867

Sujet :
## PhD position description

The candidate will be offered a fully funded PhD position (3 years).

Profil du candidat :
voir : https://www.adum.fr/as/ed/voirproposition.pl?site=PSaclay&matricule_prop=36867

Formation et compétences requises :
## Profile
– MSc or equivalent in Computer Science
– High level of academic English or French, both written and spoken;
– Knowledge of Machine Learning and Natural Language Processing or commitment to acquire it;
– Good programming skills in Python or Java (and preferably experience with deep learning tools)
– Capacity to work as part of a team in a multidisciplinary framework.
– Experiences of applied research to Life Science is an asset.
We offer a motivating research environment with many opportunities for in-house, national and international collaborations and with access to state-of-the-art research equipment.

Adresse d’emploi :
## Application

The closing date is June 30rd 2021

Interested candidates should send their application file to Claire Nédellec and to Mathieu Roche .
It should comprise:
– a CV (max 5 pages) with transcripts (Master), diplomas, internships
– a cover letter
– the names and contact of two referees for reference letters

[1] https://www6.inrae.fr/beyond/
[2] https://maiage.inrae.fr/fr/bibliome
[3] https://www.umr-tetis.fr/index.php/fr/recherche/equipes/l-equipe-misca

Offre de thèse en IA pour l’analyse d’images (Univ. Strasbourg)
Jun 15 – Jun 16 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : ICube
Durée : 36 mois
Contact : b.naegel@unistra.fr
Date limite de publication : 2021-06-15

Contexte :
Un sujet de thèse en IA pour l’analyse d’image est proposé dans l’équipe IMAGeS du laboratoire ICube (Université de Strasbourg) en collaboration avec le laboratoire CReSTIC (Université de Reims Champagne-Ardenne).

Sujet :
Titre : Guidage topologique et relationnel pour la modélisation de structures anatomiques complexes

La thèse est à pourvoir à l’automne 2021

Encadrement : Benoît Naegel (ICube), Nicolas Passat (CReSTIC)

Description du sujet :
https://images.icube.unistra.fr/img_auth_namespace.php/c/c8/2021_DeepTopo.pdf

Date limite de candidature : 22 mai 2021

Profil du candidat :
IA ; image ; mathématiques

Formation et compétences requises :
Compétences requises :

– Formation en informatique ou mathématiques appliquées
– Expérience en traitement d’images et apprentissage machine
– Connaissances en apprentissage profond
– Programmation C++ et Python

Adresse d’emploi :
Univ. Strasbourg (ICube, Illkirch-Graffenstaden)

Optimization of costly functions with mixed variables
Jun 15 – Jun 16 all-day

Offre en lien avec l’Action/le Réseau : – — –/Doctorants

Laboratoire/Entreprise : EDF labs / Mines St-Etienne
Durée : 3 ans
Contact : leriche@emse.fr
Date limite de publication : 2021-06-15

Contexte :
The design of complex industrial systems such as wind turbines or solar power plants can be formulated as an optimization problem where some of the variables are continuous while others are discrete. Moreover, the objective function is costly in the sense that it involves the use of computationally intensive codes. Such problems are also frequent in machine learning: the optimization problem is inherent to the training of a neural network, the discrete variables describe the architecture of the network while the weights of the network and other hyper-parameters are continuous.
To tackle the cost issue in the optimization problem, it is customary to use a metamodel, i.e., optimize a running model of the true (costly) function.

Sujet :
The main ambition of the thesis is to propose the most generic solution possible to the problem of costly mixed optimization, overcoming in particular the following difficulties:

Combinatorial explosion and computational cost: the presence of discrete variables (ordinal or nominal) in the absence of any notion of convexity leads to a number of possible combinations for the discrete variables that increases exponentially with the search space dimension. This is particularly problematic when the associated problem functions (objectives and constraints) are costly to evaluate. The development of Gaussian process surrogate models and strategies for refining numerical designs of experiments adapted to mixed variables seems at present a very promising prospect ;

Genericity: Mixed optimization problems have long been studied by the operations research community, and have led to the creation of a large number of specialized approaches, adapted to various cases. The emergence of mixed surrogate models and adapted refining criteria enables the possibility of developing more generic methods. The demonstration of this genericity requires in particular the possibility of testing the new methods on different industrial applications; this is why four main test cases, coming from different industrial sectors, are considered for this thesis: design of a wind power plant, a turbo-machine, and offshore wind turbine floats, as well as the dimensioning of an electrical network.

Profil du candidat :
Good knwoledge of the foundations of statistical learning and optimization
Ease in scientific programming, with a good knowledge of R, Python.

Formation et compétences requises :
Student with a master degree or equivalent in probability/statistics/operational research.

Adresse d’emploi :
Either Paris Ile-de-France or St-Etienne.

Document attaché : 202101181338_phd_EMSE-EDF_metamodeling_optim_mixed_var.pdf

Jun
18
Fri
2021
Data Lake Sémantique : une approche combinant l’IA symbolique et le machine learning
Jun 18 – Jun 19 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoire d’Informatique de Bourgogne
Durée : 3 ans
Contact : eric.leclercq@u-bourgogne.fr
Date limite de publication : 2021-06-18

Contexte :
Cette thèse est financée par la région Bourgogne, Franche-Comté par le dispositif intitulé «Itinéraire Chercheurs Entrepreneurs» (I.C.E). Ce parcours intègre une double compétence recherche et entrepreneuriat/management est Il vise à promouvoir l’émergence d’entreprises à forte valeur ajoutée sur le territoire régional et passe par l’identification et la professionnalisation de chercheurs ayant la volonté de s’inscrire dans ce type de projet.
Le but de cette thèse est de faciliter l’usage d’un data lake et de proposer des méthodes permettant d’automatiser la création de méta-données, accompagnées de solutions techniques pour les mettre en place, afin de faciliter l’exploitation des données et leur analyse. Une approche consistant à automatiser l’annotation des données lors de leur intégration dans le data lake puis à mettre en relation des données avec un graphe de connaissance pour créer des méta-données fiables, est prometteuse. Cet enrichissement peut être incrémental en bénéficiant des résultats produits par les analyses et il peut également être piloté par des ontologies de domaines, par exemple en combinant des techniques de machine learning pour des données textuelles (ou peu structurées) avec des outils de l’IA symbolique (ontologies et logiques de description).

Sujet :
L’analyse des données massives est une discipline en plein essor qui a pour objectif d’extraire de la valeur des données. Les informations ainsi extraites peuvent ensuite servir à expliquer et décrire un événement passé, prédire les événements à venir ou encore prescrire des solutions permettant d’améliorer la situation actuelle.
De nombreuses méthodes d’analyse existent (machine learning, algorithmes d’analyse de réseaux complexes, stream processing, etc.), s’appuyant sur des modèles de données différents (graphes, relations, matrices, tenseurs, etc.), ayant des contraintes d’application variées et n’ayant pas les mêmes capacités d’interprétabilité. La collaboration entre des experts des sciences des données et des experts métiers est essentielle.
Le stockage des données est une phase critique qui doit permettre de pouvoir ensuite les exploiter efficacement lors des analyses. Les data warehouses dont le principe date de plus de 25 ans sont peu adaptés à la réalité des données massives. En effet, ces dernières évoluent rapidement tant au niveau de leur nature que de leur format : un data warehouse est statique et ne peut pas incorporer des modifications des schémas des données facilement et encore moins ingérer des flux de données importants et continus.
Pour compenser ce manque de flexibilité, la notion de data lake a été proposée en 2010, par James Dixon [3], de Pentaho (société spécialisée dans les technologies décisionnelles). La définition a évolué depuis vers le consensus suivant : ce sont des systèmes dans lesquels des données hétérogènes (de par leur format, leur provenance, leur utilité, etc.) sont stockées, et qui offrent des outils pour extraire des jeux de données afin de réaliser des analyses beaucoup plus variées que celles possibles avec les data warehouses. Pour prendre en compte la diversité des formats de données, différents systèmes de stockage distribués ou non peuvent être combinés pour former un polystore [11].
Toutefois, les data lakes peuvent être victimes d’un excès de flexibilité, et se transformer en data swamps, dans lesquels il devient extrêmement difficile de naviguer, de localiser et d’extraire des données pertinentes. Il est donc essentiel de développer des techniques permettant d’organiser et de mettre en forme les data lakes. Cela demande souvent un investissement humain considérable, qui a entraîné la naissance de nouveaux rôles liés aux données, comme les data stewards, chargés de maintenir un catalogue de méta-données du contenu du data lake, afin de pouvoir identifier le ou les jeux de données pertinents pour des analyses métier. Toutefois, la nécessité de tels rôles rend les data lakes inaccessibles pour la majorité des entreprises, et requiert une cohérence dans le catalogue afin de pouvoir exploiter correctement les données.
Les deux orientations principales des recherches autour des data lakes consistent soit à diviser le data lake en data ponds (qui peuvent regrouper des données ayant la même fonctionnalité, le même format, etc.) [8], soit à ajouter des méta-données [9,10,7]. La première approche, très similaire aux data-marts, ne résout pas réellement les problèmes puisqu’elle segmente uniquement le data lake en unités plus petites avec peu de liens entre elles. Or la valeur extraite des données massives provient souvent de leur analyse conjointe découvrant ainsi des liens cachés entre les données.
Des solutions telles que Delta Lake [1] ou Lakehouse [2] regroupent différents moyens techniques facilitant l’utilisation de données hétérogènes et les interactions entre les différents acteurs. Ces solutions nécessitent souvent un expert technique pour orchestrer et tirer profit de tels systèmes. En se concentrant sur les aspects stockage, elles ne permettent pas de gérer finement l’organisation et la navigation dans le data lake pour localiser les jeux de données adaptés. De ce fait, cela pénalise les entreprises qui ne peuvent pas avoir d’équipe dédiée à cette tâche, et les empêche donc de bénéficier du gain de compétitivité que peut leur apporter l’exploitation de leurs données.
Le but de cette thèse est de faciliter l’usage d’un data lake et de proposer des méthodes permettant d’automatiser la création de méta-données, accompagnées de solutions techniques pour les mettre en place, afin de faciliter l’exploitation des données et leur analyse. Une approche consistant à automatiser l’annotation des données lors de leur intégration dans le data lake puis à mettre en relation des données avec un graphe de connaissance pour créer des méta-données fiables, est prometteuse. Cet enrichissement peut être incrémental en bénéficiant des résultats produits par les analyses et il peut également être piloté par des ontologies de domaines, par exemple en combinant des techniques de machine learning pour des données textuelles (ou peu structurées) avec des outils de l’IA symbolique (ontologies et logiques de description). En effet, les mécanismes d’annotation manuels ont démontré leurs limites comme le présente Gorelik [6] au travers d’un biais d’annotation qui traduit le fait que les données les mieux annotées et documentées sont celles qui sont le plus accédées, entraînant par la même occasion un ajout d’annotations sur ces mêmes données populaires, et ce au détriment des autres jeux de données indifféremment de leur qualité.
Références
[1] Michael Armbrust, Tathagata Das, Liwen Sun, Burak Yavuz, Shixiong Zhu, Mukul Murthy,Joseph Torres, Herman van Hovell, Adrian Ionescu, Alicja Luszczak, et al. Delta lake : high-performance acid table storage over cloud object stores. Proceedings of the VLDB Endowment,13(12) :3411-3424, 2020.
[2] Michael Armbrust, Ali Ghodsi, Reynold Xin, and Matei Zaharia. Lakehouse : A new generation of open platforms that unify data warehousing and advanced analytics. CIDR, 2021.
[3] James Dixon. Pentaho, Hadoop, and data lakes. blog, Oct, 2010.
[4] Annabelle Gillet, Eric Leclercq, and Nadine Cullot. Evolution et formalisation de la lambda architecture pour des analyses à hautes performances-application aux données de twitter. Revue ouverte d’ingénierie des systèmes d’information, 2021.
[5] Annabelle Gillet, Eric Leclercq, and Nadine Cullot. Lambda+, the renewal of the lambda architecture : Category theory to the rescue. In 33rd International Conference on Advanced Information Systems Engineering (CAISE) (à paraître), page 15, 2021.
[6] Alex Gorelik. The enterprise big data lake : Delivering the promise of big data and data science. O’Reilly Media, 2019.
[7] Moditha Hewasinghage, Jovan Varga, Alberto Abello, and Esteban Zimanyi. Managing polyglot systems metadata with hypergraphs. In International Conference on Conceptual Modeling, pages 463-478. Springer, 2018.
[8] Bill Inmon. Data Lake Architecture : Designing the Data Lake and avoiding the garbage dump. Technics publications, 2016.
[9] Pegdwendé Sawadogo and Jérôme Darmont. On data lake architectures and metadata management. Journal of Intelligent Information Systems, pages 1-24, 2020.
[10] Pegdwendé Sawadogo, Tokio Kibata, and Jérôme Darmont. Metadata management for textual documents in data lakes. International Conference on Enterprise Information Systems (ICEIS), 2019.
[11] Michael Stonebraker and Ugur Cetintemel. “one size ts all” an idea whose time has come and gone. In Making Databases Work : the Pragmatic Wisdom of Michael Stonebraker, pages 441-462. 2018.

Profil du candidat :
Le candidat à cette thèse doit avoir un Master 2 en informatique (ou équivalent).

Formation et compétences requises :
Le candidat devra avoir effectué un cursus en informatique et démontré ses compétences en gestion des données et en intelligence artificielle.
De bonnes connaissances en bases de données, web sémantique, ontologies, logiques du premier ordre sont nécessaires. Le candidat devra également avoir une première expérience en analyse de données massives (données de réseaux sociaux par exemple).

Adresse d’emploi :
Laboratoire d’Informatique de Bourgogne, Université de Bourgogne, UFR Sciences et Techniques,9 Avenue Alain Savary 21078 Dijon.

Document attaché : 202105230835_ICE-MADICS.pdf

Jun
30
Wed
2021
Méthodes proactives pour la qualité produit en vue d’accélérer la fabrication zéro défaut dans une p
Jun 30 – Jul 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/Doctorants

Laboratoire/Entreprise : DISP (Décision et Information pour les Systèmes de
Durée : 3 ans
Contact : Mohand.Bentaha@xn--univlyon2-y79d.fr
Date limite de publication : 2021-06-30

Contexte :
Challengée par la montée en cadence de son activité de sous‐traitance et sa volonté de diversification et
accroissement de ses clients, l’entreprise FAYOLLE vise à améliorer la productivité, la réactivité et la sécurité
de ses processus de production, des hommes et des machines. L’entreprise FAYOLLE souhaite maintenir son
excellence industrielle en s’appropriant les nouveaux concepts de l’Industrie 4.0 et en développant des
solutions innovantes pour l’excellence des opérations de production, le « Zero Default Manufacturing » et la
« sécurité des hommes, des machines et des produits ».
3.1. Présentation de l’entreprise
FAYOLLE SAS (https://www.fayolle‐chaudronnerie.com/) s’est spécialisé depuis 50 ans dans les métiers de la
chaudronnerie et la tôlerie avec une offre de sous‐traitance assez large pour les activités de découpe laser 2
D et 3 D, de soudure laser 3D, de chaudronnerie , le pliage, le roulage, etc. Fayolle offre ses services pour
plusieurs secteurs comme l’automobile, l’aéronautique, l’agroalimentaire ou le médical… Dans un souci
d’excellence industrielle, l’entreprise est investie dans l’appropriation des concepts de l’industrie 4.0 afin
d’améliorer la réactivité, l’efficacité et la sécurité de ses processus de production.
3.2. Origine du projet
FAYOLLE possède une activité croissante de sous‐traitance qui génère une montée en charge souvent très
importante par rapport aux capacités de production. Ceci engendre une forte instabilité sur le plan de charge,
une complexité pour la gestion du plan de charge et des moyens matériels et humains de l’entreprise, ainsi
qu’un facteur de pression pour le développement commercial par sa volonté de diversification de ses clients.
Dans ce contexte, FAYOLLE souhaite développer des outils d’aide à la décision pour améliorer la connaissance
et la maîtrise de son appareil de production. Ainsi, des enjeux se dégagent : maintenir la forte disponibilité
des machines indispensable à son activité, augmenter la productivité des hommes et des machines, optimiser
les flux, réduire les délais de fabrication et atteindre une qualité produit zéro défaut du premier coup afin
d’apporter un service à ses clients tout en sécurisant les opérateurs et les matériaux. FAYOLLE vise à adresser
ces enjeux par le biais de la donnée et de l’expérience enregistrée depuis de nombreuses années.
3.3. Les objectifs du projet de recherche
Les objectifs de cette thèse résident dans la création de leviers pour l’amélioration de l’exploitation de
l’appareil productif de chez FAYOLLE au travers de :
• Une cartographie dynamique des flux et entités intervenant dans le processus de production.
• Définition d’une architecture IoT capable de monitorer en temps réel le fonctionnement de l’appareil
productif.
Développement d’outils d’optimisation de l’affectation des ressources de production et évaluation de
performances opérationnelles.
• Développement d’un modèle prédictif de prise de décision et de recommandation pour atteindre une
qualité zéro défaut (le bon produit du premier coup).
• Déploiement ciblé des outils développés au sein de FAYOLLE.
Face à ces objectifs, plusieurs verrous organisationnels, techniques et technologiques doivent être levés :
• Prendre en compte l’hétérogénéité des processus d’industrialisation et de production, ainsi que
l’hétérogénéité des systèmes d’information.
• Prendre en compte l’hétérogénéité des équipements de production dans le système d’aide à la
décision.
Pour lever ces verrous et atteindre les objectifs identifiés ci‐dessus, nous proposons de développer les
travaux de recherche sous un contrat CIFRE entre le laboratoire DISP à l’Université Lumière Lyon 2 et
l’entreprise FAYOLLE.
3.4. Présentation du laboratoire
Le laboratoire DISP (Décision et Information pour les Systèmes de Production), de l’Université de Lyon, est
reconnu pour ses compétences en :
• Modélisation et optimisation du cycle de vie des systèmes.
• Agilité des systèmes d’information.
• Pilotage des systèmes de production de biens et de services.
Ici, c’est l’axe “Agilité des systèmes d’information” qui est mis en avant. L’objectif scientifique des membres
de l’axe est d’évaluer et piloter l’alignement des systèmes d’information, tant au niveau métier que
technique, dans un contexte distribué et dynamique.
L’expertise de l’axe “Agilité des systèmes d’information” est de :
• Faciliter l’intégration de nouveaux modèles organisationnels et de nouvelles technologies dans les
systèmes d’information, en caractérisant l’évolution des modèles organisationnels et les horizons de
responsabilités des infrastructures logicielles [1].
• Faciliter l’intégration et l’interopérabilité fonctionnelle et organisationnelle en proposant des cadres
d’alignement de systèmes d’entreprise en changement et en considérant leur cycle de vie, de leur
conception à leur intégration et leurs usages [2].
• Extraire, agréger, préserver et partager les connaissances en mettant en oeuvre l’identification, le
partage et la préservation des connaissances à long terme et en gérant l’échelle, la complexité et
l’hétérogénéité des données [3,4].
Pour les mots clés mis en avant dans cette offre de thèse, le laboratoire DISP a déjà supporté le
développement de plusieurs travaux de recherche et proposé :
• Un ensemble de modèles de prise de décision pour améliorer la réactivité des systèmes de production
[1-5].
• Un Framework architectural et un ensemble de modèles pour intégrer ou interopérer les nouveaux
concepts et solutions avec les systèmes existants [6-11]

Sujet :
Approche de recherche
Conformément aux objectifs de recherche présentés ci‐dessus, nous proposons un projet de recherche qui
couvre les phases d’exploration, de prototypage et production d’un système d’aide à la décision afin
d’atteindre une qualité produit zéro défaut du premier coup.
4.1. Intérêt et qualité scientifique
L’émergence des outils, méthodes et solutions pour l’analyse de données positionne la « data science »
comme outil prometteur pour favoriser et accompagner l’amélioration de l’efficacité et l’efficience de
l’appareil productif. En effet, l’application des concepts de big data, IoT et réseaux de neurones pour les PMEs
apporte une ouverture prometteuse en termes de :
• Optimisation des moyens de production : coût, ajustement de capacité machines, etc. [12,13].
• Approche d’amélioration continue pour le système de production [14-16].
• Exploitation des IoT pour le suivi et pilotage de la production [17-19].
• Fabrication zéro défaut [20-24]
• Maintenance prédictive [25-28]

Profil du candidat :
Le candidat devra être titulaire d’un Master ou d’un diplôme d’Ingénieur en Informatique ou autre diplôme
avec de solides connaissances en Informatique (Génie Industriel, Génie Electrique, etc.). Il devra être motivé
par la recherche appliquée, par les approches d’intelligence artificielle et par les technologies IoT.

Formation et compétences requises :
 Une bonne connaissance du fonctionnement des réseaux de neurones et des librairies comme TensorFlow, scikit‐learn, etc.
 De bonnes connaissances en Recherche Opérationnelle‐Aide à la Décision.
 De bonnes connaissances dans la conception et analyse d’application.
 Un intérêt pour les capteurs et l’IoT.
 Python / Jupyter Labs.

Adresse d’emploi :
Laboratoire DISP
IUT Lumière
Campus Porte des Alpes
160 Bd de l’Université
69500 BRON

Document attaché : 202101141620_Offre_CIFRE_FAYOLLE_LYON2.pdf

Jul
1
Thu
2021
Data lakes & Analytics
Jul 1 – Jul 2 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : société Bial-X (Limonest, Rhône) et laboratoire ER
Durée : 36 mois
Contact : sabine.loudcher@univ-lyon2.fr
Date limite de publication : 2021-07-01

Contexte :
Cette proposition de thèse se place dans le cadre d’une collaboration entre le laboratoire ERIC, qui mène des recherches dans les domaines de la science des données et de l’informatique décisionnelle (business intelligence), et l’entreprise Bial-X, cabinet d’experts en business intelligence et big data. Une première thèse CIFRE entre les deux partenaires, portant sur la conception et l’implémentation d’un premier lac de données destiné à l’habitat social, va être soutenue d’ici décembre 2021.

Sujet :
Depuis le début du 21e siècle, les usages des organisations dans les processus de prise de décision sont bouleversés par la disponibilité de grands volumes de données hétérogènes appelées big data. Ces mégadonnées constituent une véritable opportunité pour les organisations, mais elles s’accompagnent entre autres de problématiques de volume, de vélocité et de variété qui surpassent les capacités des systèmes traditionnels de stockage et de traitement des données [6]. C’est dans ce con-texte que Dixon introduit le concept de lac de données (data lake), en guise de solution aux pro-blèmes induits par l’hétérogénéité des mégadonnées [7].

Un lac de données propose de stocker les données dans leur format d’origine et sans schéma prédéfi-ni [5]. Cette approche, qualifiée de schema-on-read, s’oppose à celle des entrepôts de données, appe-lée schema-on-write, où les données sont transformées avant leur stockage. Avec un tel principe, tous types de données peuvent cohabiter dans un lac de données, qu’elles soient structurées ou non. Pour être exploitable, un lac de données a besoin de métadonnées qui permettent de décrire les données stockées dans le lac, ainsi qu’un système efficace de gestion de ces métadonnées. Le laboratoire ERIC a étendu la définition du concept de lacs de données ainsi que les fonctionnalités que le sys-tème de métadonnées devait avoir pour être complet et efficace [9]. Récemment, il vient de proposer un modèle de métadonnées, baptisé goldMEDAL, basé sur 4 concepts principaux : entité de données, groupement, lien et processus [11]. Une étude des modèles de métadonnées actuels montre que goldMEDAL permet de généraliser les concepts proposés dans la littérature, faisant de lui le modèle le plus générique [4, 7, 8].
La 1re thèse CIFRE entre le laboratoire ERIC et la société Bial-X est ancrée dans le domaine de l’habitat social, domaine en lien avec les clients de l’entreprise. C’est dans ce contexte qu’un premier prototype de lac de données dédié à l’habitat social vient d’être développé [10].

Après avoir démontré l’intérêt et la faisabilité d’utiliser un lac de données dans le contexte de l’habitat social, les partenaires souhaitent poursuivre avec la conception, la mise en place et l’industrialisation de lacs dans différents domaines liés aux activités des clients de la société Bial-X. De plus les partenaires souhaitent explorer le nouveau concept de data mesh pour l’organisation et l’exploitation des données hétérogènes massives [1].

A partir de 2022, dans le cadre du concept de business intelligence and analytics (BI&A), l’objectif de la présente thèse sera de permettre :
– la création assistée ou semi-automatique de métadonnées au moment de l’insertion de nou-velles entités de données dans un lac, et ce grâce à l’extraction automatique d’informations depuis les données « primaires » par des méthodes d’intelligence artificielle ;
– l’interrogation des données du lac sur la base de requêtes formulées sur les métadonnées ;
– l’utilisation du lac possible non seulement par des data scientists, mais aussi par des experts métier pour extraire et analyser des données hétérogènes ;
– la généralisation et l’industrialisation des lacs de données dans différents projets de la société Bial-X ;
– l’étude les possibilités offertes par le nouveau concept de data mesh pour l’industrialisation des processus de science de données.

Cette thèse comprendra trois grand niveaux de réalisation : un niveau conceptuel ou théorique pour concevoir les différentes propositions, un niveau technique pour l’implémentation informatique des solutions et un niveau applicatif avec la mise en œuvre des propositions sur des données réelles et sur des problématiques métiers des clients de la société Bial-X.

D’un point de vue technique, les propositions faites par le/la doctorant(e) seront implémentées et in-tégrées aux solutions logicielles développées par la société Bial-X. Le/la doctorant(e) intégrera une équipe de spécialistes passionnés, à dimension humaine, où il pourra mettre en action ses propositions, sa créativité et ses compétences sur des cas concrets, réels et passionnants.

Profil du candidat :
Des compétences en bases de données, en traitement des données massives ou en technologies liées aux big data seront particulièrement appréciées.

Formation et compétences requises :
Master (ou équivalent) en informatique décisionnelle ou en sciences des données.

Adresse d’emploi :
Lyon

Document attaché : 202104261448_Sujet thèse DL&analytics 2022.pdf