Data Lake Sémantique : une approche combinant l’IA symbolique et le machine learning

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoire d’Informatique de Bourgogne
Durée : 3 ans
Contact : eric.leclercq@u-bourgogne.fr
Date limite de publication : 2021-06-18

Contexte :
Cette thèse est financée par la région Bourgogne, Franche-Comté par le dispositif intitulé «Itinéraire Chercheurs Entrepreneurs» (I.C.E). Ce parcours intègre une double compétence recherche et entrepreneuriat/management est Il vise à promouvoir l’émergence d’entreprises à forte valeur ajoutée sur le territoire régional et passe par l’identification et la professionnalisation de chercheurs ayant la volonté de s’inscrire dans ce type de projet.
Le but de cette thèse est de faciliter l’usage d’un data lake et de proposer des méthodes permettant d’automatiser la création de méta-données, accompagnées de solutions techniques pour les mettre en place, afin de faciliter l’exploitation des données et leur analyse. Une approche consistant à automatiser l’annotation des données lors de leur intégration dans le data lake puis à mettre en relation des données avec un graphe de connaissance pour créer des méta-données fiables, est prometteuse. Cet enrichissement peut être incrémental en bénéficiant des résultats produits par les analyses et il peut également être piloté par des ontologies de domaines, par exemple en combinant des techniques de machine learning pour des données textuelles (ou peu structurées) avec des outils de l’IA symbolique (ontologies et logiques de description).

Sujet :
L’analyse des données massives est une discipline en plein essor qui a pour objectif d’extraire de la valeur des données. Les informations ainsi extraites peuvent ensuite servir à expliquer et décrire un événement passé, prédire les événements à venir ou encore prescrire des solutions permettant d’améliorer la situation actuelle.
De nombreuses méthodes d’analyse existent (machine learning, algorithmes d’analyse de réseaux complexes, stream processing, etc.), s’appuyant sur des modèles de données différents (graphes, relations, matrices, tenseurs, etc.), ayant des contraintes d’application variées et n’ayant pas les mêmes capacités d’interprétabilité. La collaboration entre des experts des sciences des données et des experts métiers est essentielle.
Le stockage des données est une phase critique qui doit permettre de pouvoir ensuite les exploiter efficacement lors des analyses. Les data warehouses dont le principe date de plus de 25 ans sont peu adaptés à la réalité des données massives. En effet, ces dernières évoluent rapidement tant au niveau de leur nature que de leur format : un data warehouse est statique et ne peut pas incorporer des modifications des schémas des données facilement et encore moins ingérer des flux de données importants et continus.
Pour compenser ce manque de flexibilité, la notion de data lake a été proposée en 2010, par James Dixon [3], de Pentaho (société spécialisée dans les technologies décisionnelles). La définition a évolué depuis vers le consensus suivant : ce sont des systèmes dans lesquels des données hétérogènes (de par leur format, leur provenance, leur utilité, etc.) sont stockées, et qui offrent des outils pour extraire des jeux de données afin de réaliser des analyses beaucoup plus variées que celles possibles avec les data warehouses. Pour prendre en compte la diversité des formats de données, différents systèmes de stockage distribués ou non peuvent être combinés pour former un polystore [11].
Toutefois, les data lakes peuvent être victimes d’un excès de flexibilité, et se transformer en data swamps, dans lesquels il devient extrêmement difficile de naviguer, de localiser et d’extraire des données pertinentes. Il est donc essentiel de développer des techniques permettant d’organiser et de mettre en forme les data lakes. Cela demande souvent un investissement humain considérable, qui a entraîné la naissance de nouveaux rôles liés aux données, comme les data stewards, chargés de maintenir un catalogue de méta-données du contenu du data lake, afin de pouvoir identifier le ou les jeux de données pertinents pour des analyses métier. Toutefois, la nécessité de tels rôles rend les data lakes inaccessibles pour la majorité des entreprises, et requiert une cohérence dans le catalogue afin de pouvoir exploiter correctement les données.
Les deux orientations principales des recherches autour des data lakes consistent soit à diviser le data lake en data ponds (qui peuvent regrouper des données ayant la même fonctionnalité, le même format, etc.) [8], soit à ajouter des méta-données [9,10,7]. La première approche, très similaire aux data-marts, ne résout pas réellement les problèmes puisqu’elle segmente uniquement le data lake en unités plus petites avec peu de liens entre elles. Or la valeur extraite des données massives provient souvent de leur analyse conjointe découvrant ainsi des liens cachés entre les données.
Des solutions telles que Delta Lake [1] ou Lakehouse [2] regroupent différents moyens techniques facilitant l’utilisation de données hétérogènes et les interactions entre les différents acteurs. Ces solutions nécessitent souvent un expert technique pour orchestrer et tirer profit de tels systèmes. En se concentrant sur les aspects stockage, elles ne permettent pas de gérer finement l’organisation et la navigation dans le data lake pour localiser les jeux de données adaptés. De ce fait, cela pénalise les entreprises qui ne peuvent pas avoir d’équipe dédiée à cette tâche, et les empêche donc de bénéficier du gain de compétitivité que peut leur apporter l’exploitation de leurs données.
Le but de cette thèse est de faciliter l’usage d’un data lake et de proposer des méthodes permettant d’automatiser la création de méta-données, accompagnées de solutions techniques pour les mettre en place, afin de faciliter l’exploitation des données et leur analyse. Une approche consistant à automatiser l’annotation des données lors de leur intégration dans le data lake puis à mettre en relation des données avec un graphe de connaissance pour créer des méta-données fiables, est prometteuse. Cet enrichissement peut être incrémental en bénéficiant des résultats produits par les analyses et il peut également être piloté par des ontologies de domaines, par exemple en combinant des techniques de machine learning pour des données textuelles (ou peu structurées) avec des outils de l’IA symbolique (ontologies et logiques de description). En effet, les mécanismes d’annotation manuels ont démontré leurs limites comme le présente Gorelik [6] au travers d’un biais d’annotation qui traduit le fait que les données les mieux annotées et documentées sont celles qui sont le plus accédées, entraînant par la même occasion un ajout d’annotations sur ces mêmes données populaires, et ce au détriment des autres jeux de données indifféremment de leur qualité.
Références
[1] Michael Armbrust, Tathagata Das, Liwen Sun, Burak Yavuz, Shixiong Zhu, Mukul Murthy,Joseph Torres, Herman van Hovell, Adrian Ionescu, Alicja Luszczak, et al. Delta lake : high-performance acid table storage over cloud object stores. Proceedings of the VLDB Endowment,13(12) :3411-3424, 2020.
[2] Michael Armbrust, Ali Ghodsi, Reynold Xin, and Matei Zaharia. Lakehouse : A new generation of open platforms that unify data warehousing and advanced analytics. CIDR, 2021.
[3] James Dixon. Pentaho, Hadoop, and data lakes. blog, Oct, 2010.
[4] Annabelle Gillet, Eric Leclercq, and Nadine Cullot. Evolution et formalisation de la lambda architecture pour des analyses à hautes performances-application aux données de twitter. Revue ouverte d’ingénierie des systèmes d’information, 2021.
[5] Annabelle Gillet, Eric Leclercq, and Nadine Cullot. Lambda+, the renewal of the lambda architecture : Category theory to the rescue. In 33rd International Conference on Advanced Information Systems Engineering (CAISE) (à paraître), page 15, 2021.
[6] Alex Gorelik. The enterprise big data lake : Delivering the promise of big data and data science. O’Reilly Media, 2019.
[7] Moditha Hewasinghage, Jovan Varga, Alberto Abello, and Esteban Zimanyi. Managing polyglot systems metadata with hypergraphs. In International Conference on Conceptual Modeling, pages 463-478. Springer, 2018.
[8] Bill Inmon. Data Lake Architecture : Designing the Data Lake and avoiding the garbage dump. Technics publications, 2016.
[9] Pegdwendé Sawadogo and Jérôme Darmont. On data lake architectures and metadata management. Journal of Intelligent Information Systems, pages 1-24, 2020.
[10] Pegdwendé Sawadogo, Tokio Kibata, and Jérôme Darmont. Metadata management for textual documents in data lakes. International Conference on Enterprise Information Systems (ICEIS), 2019.
[11] Michael Stonebraker and Ugur Cetintemel. “one size ts all” an idea whose time has come and gone. In Making Databases Work : the Pragmatic Wisdom of Michael Stonebraker, pages 441-462. 2018.

Profil du candidat :
Le candidat à cette thèse doit avoir un Master 2 en informatique (ou équivalent).

Formation et compétences requises :
Le candidat devra avoir effectué un cursus en informatique et démontré ses compétences en gestion des données et en intelligence artificielle.
De bonnes connaissances en bases de données, web sémantique, ontologies, logiques du premier ordre sont nécessaires. Le candidat devra également avoir une première expérience en analyse de données massives (données de réseaux sociaux par exemple).

Adresse d’emploi :
Laboratoire d’Informatique de Bourgogne, Université de Bourgogne, UFR Sciences et Techniques,9 Avenue Alain Savary 21078 Dijon.

Document attaché : 202105230835_ICE-MADICS.pdf

Combinaison de méthodes de commande optimale et d’intelligence artificielle pour le contrôle d’un vé

Offre en lien avec l’Action/le Réseau : – — –/Doctorants

Laboratoire/Entreprise : Université de Toulouse
Durée : 3 ans
Contact : sophie.jan@math.univ-toulouse.fr
Date limite de publication : 2021-09-01

Contexte :
Intelligence Artificielle – Véhicule Hybride

Sujet :
La société Vitesco travaille depuis de nombreuses années sur le développement de véhicules hybrides, qui apparaissent comme une des solutions pour réduire la consommation d’énergie fossile et donc les émissions locales de CO2 liées au transport. L’expansion rapide des technologies permettant une connectivité accrue du véhicule à son environnement associée aux capacités de calcul sans cesse croissantes des ordinateurs permet aujourd’hui d’envisager de réaliser à bord et en temps réel une optimisation de la répartition de puissance entre moteur électrique et thermique, de la gestion de l’état de charge de la batterie ou encore de la température des circuits de refroidissement.
Plusieurs approches orientées programmation dynamique ou encore basées sur le principe du Maximum de Pontryagin ont déjà été explorées par Vitesco pour résoudre certains aspects de ces problèmes complexes de contrôle optimal. Cependant, les exigences environnementales rendent aujourd’hui nécessaire de traiter ces problèmes dans leur globalité en considérant dans leur ensemble les sous-systèmes constitutifs du véhicule ainsi que leurs interactions mutuelles, faisant intervenir des phénomènes physiques de nature différente, mécanique, électrique, thermique ou encore chimique.
Par ailleurs, de nombreuses sources d’incertitude sont à prendre en considération, et en particulier le comportement du conducteur.
Le travail de thèse consistera à identifier précisément ce problème global de l’optimisation d’un véhicule hybride du point de vue de critères environnementaux et d’en proposer une méthode de résolution suffisamment robuste et qui soit compatible avec les exigences de temps de calcul liées aux capacités des calculateurs embarqués. Pour cela, associées aux méthodes de contrôle optimal,
les techniques d’intelligence artificielle devraient permettre de réduire certaines incertitudes en améliorant les prédictions servant de base à l’optimisation, de renforcer les modèles déterministes
représentant le comportement des différents sous-systèmes du véhicule ou encore d’adapter de
manière dynamique les critères à optimiser. C’est cet accroissement des capacités des techniques
de contrôle optimal par l’introduction de l’intelligence artificielle qui constitue l’objectif global de
cette thèse.

Profil du candidat :
Master en mathématiques appliquées ou équivalent

Formation et compétences requises :
Forte connaissance des techniques de commande optimale,
des bases solides en intelligence artificielle.

Adresse d’emploi :
Université de Toulouse

Document attaché : 202105211452_Proposition_Thèse.pdf

Systèmes intelligents pour la transmission des Humanités numériques et pour la recherche en santé

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : ELLIADD
Durée : 36 mois
Contact : thibaud.hulin@univ-fcomte.fr
Date limite de publication : 2021-06-02

Contexte :
Cette thèse sera effectuée en co-tutelle USA (NY) / France (UFC).

IMPORTANT : le dossier peut être déposé jusqu’au 4/6 via ce lien : https://www.adum.fr/as/ed/voirproposition.pl?langue=&site=lecla&matricule_prop=36430

Le déploiement du web bouleverse notre rapport au savoir et notre métier d’enseignant et de chercheur. Accompagnées d’agents intelligents capables d’effectuer des raisonnements à partir d’ontologies (représentations structurées d’un domaine), les plateformes sémantiques contribuent à construire cet espace commun de la connaissance au XXIe siècle : les « humanités numériques » (HN).
Le thème des HN rassemble les travaux de chercheurs qui interrogent notre besoin de transmettre ce socle commun et des compétences de haut niveau cognitif. Ce champ a aussi besoin d’être mieux structuré, clarifié, stimulé et partagé. Sa formalisation peut permettre d’étudier les concepts et les liens entre compétences (Ageeva et al., 2019). Or, si nous savons produire des ontologies de compétences (Desmoulins, 2010), ou utiliser des ontologies dans le domaine des HN (Toyoshima, 2019), nous ne disposons ni d’ontologies, ni de plateforme de référence dans le champ « humanités numériques et éducation » (HNE). Enfin, les données structurées issues des SHS sont rarement valorisées comme objets pédagogiques.
La recherche en intelligence artificielle (IA) s’est fortement développé ces dernières années (plan n’investissement français 1,5 md € en France en 2018). Le cadre d’applications ou framework Whyis 1
est une solution pour construire une plateforme intelligente dédiées aux HNE. Il permet d’extraire d’une resource une unité minimale d’information, la nanopublication, pour effectuer des inférences. Il sait traiter des sources de données hétérogènes ainsi que le langage naturel, manipuler des graphes de connaissances communes pour répondre aux questions des enseignants et des chercheurs. Les autres frameworks concurrents (Stardog, Ontowiki, Callimachus, Virtuoso Openlink Data Spaces, Vitro) n’offrent pas autant de services.
Bien qu’intéressant pour structurer les HN, le design de services intelligents ne fait pas l’objet d’une méthode de construction universelle : il dépend de cas d’utilisation propres à différents terrains, et qu’il convient de comparer afin d’en extraire les usages intéressants. L’expérience de Whyis est acquise dans les domaines du traitement des nanopolymères, de la politique du spectre et surtout de l’informatique de santé (McCusker et al., 2018). Pour en assurer le développement continu, il est donc souhaitable de croiser les cas d’utilisation entre usages en santé et en HNÉ.

Sujet :
Problématique. Comment construire un système d’IA pour stimuler les pratiques enseignantes et de recherche en HN, et de valoriser les corpus numérisés comme objets pédagogiques à partir d’une approche comparée entre HNE et santé ?

Enjeux. Le thème de la transmission des HN revêt une grande importance pratique, professionnelle et citoyenne pour tous les jeunes et les adultes en formation continue. L’identification de compétences de haut niveau est stratégique pour promouvoir des compétences durables. Les HN est un champ à structurer pour partager ou valoriser les innovations pédagogiques, mais aussi la recherche sur ces innovations. Des scénarios pédagogiques seront proposés pour valoriser les corpus de données, avec une attention particulière en direction de ceux produits en SHS y compris en Bourgogne-Franche-Comté. Grâce à l’analyse comparative des usages et la mise à disposition des services développés vers la communauté Whyis, le travail sur les services et cas d’utilisation d’une plateforme sémantique dans le domaine HN impactera directement le domaine des sciences de la santé et de la recherche sur le cancer (ex. : nouveaux services de recherche d’information et de visualisation). Enfin, cette recherche contribuera à développer le web de demain et ses standards au niveau international.

Méthodologie et calendrier. Après un état de l’art (1/09/21 – 20/12/21), une première étape consistera à construire l’ontologie du champ HNE via des séances de focus groupes avec les praticiens et chercheurs du projet HUMANE2, et avec l’équipe de l’université de Laval (Canada) : jusqu’au
20/12/2022.
L’étape 2 vise à construire les données. Elle concerne (a) l’indexation de ressources pédagogiques, et le recensement des recherches sur notre thème ; (b) la valorisation pédagogique d’archives. Les enseignants sont sollicités pour décrire leurs pratiques via un formulaire. Ces activités sont développées par l’équipe du projet HUMANE et de ses correspondants internationaux : 5/1/2022 – 20/12/2022.
La participation à ces groupes par la ou le doctorant lui permettra d’intervenir sur l’étape de design de la plateforme, par la formalisation des cas d’utilisation et le design de services. Elle ou il devra prendre en compte à la fois les besoins en HN et l’expérience acquise dans le champ de la santé. Le transfert d’expérience sera fait via l’équipe américaine à l’IPR 3 en co-tutelle de thèse. Jusqu’au 20/03/23 (3 itérations).
La quatrième étape, collaborative, vise à implanter l’ontologie et à développer les services de la plateforme, dont la connexion à des corpus de données existants. Selon un cycle de développement agile, du 1/01/22 au 20/03/23 (3 itérations).
Lors de l’étape d’évaluation, des tests utilisateurs seront réalisés avec les enseignants, ainsi que des analyses des traces d’activité et des enquêtes d’évaluation. Ce projet bénéficiera d’études de type eye- tracking grâce à l’expertise du laboratoire ELLIADD en ergonomie et conception des systèmes.
Enfin une étape d’observation des pratiques en HN permettra aux chercheurs du projet HUMANE d’évaluer et de mettre à jour l’ontologie de compétences, résultats auxquels le doctorant aura accès.

3. Objectifs et résultats escomptés
La thèse a pour but de structurer le champ des HNE et d’initier de nouvelles recherches dans le domaine via des échanges à l’international. Ceci sera rendu possible grâce à la constitution déjà lancée d’un corpus de ressources HNE (pédagogiques, projets, institutions ou personnes), ou de liens vers des corpus numérisés. L’objectif est à la fois de dynamiser l’innovation pédagogique, de rendre davantage visible et de valoriser les corpus produits et les recherches effectuées.
En identifiant des compétences de haut niveau à l’intérieur d’une ontologie du champ, ce projet stimulera et développera une didactique du domaine et soutiendra les liens entre cognition et informatique.
La plateforme sémantique permettra d’améliorer la recherche d’information, tant pour trouver une ressource que pour visualiser les données et en extraire de nouvelles connaissances. Le design de services de la plateforme et la formalisation des cas d’utilisation transmettront dans les deux sens l’expérience acquise via Whyis entre le champ de la santé vers celui des HN. Enfin, ce projet contribue à la construction du web sémantique et des services qu’il nous apportera demain.

4. Laboratoire de rattachement et Insertion dans les axes du labo, de I-SITE et des MSH BFC
Ce projet s’inscrit naturellement dans l’axe 1 de l’I-SITE consacré aux systèmes intelligents, ainsi que dans l’axe 3 sur la santé grâce à l’approche comparative des usages.
Il s’inscrit dans le paradigme de la transmission des pôles thématiques de la fédération des MSH BFC qui soutient aussi de nombreux corpus en SHS.
Rattaché au laboratoire ELLIADD, ce projet concerne tous ses pôles : la valorisation des corpus dans le champ de l’enseignement des HN mobilisera les pôles AL, DTMS et LLC ; l’expérience en HN et en web sémantique mobilise le pôle CCM et sur son axe transversal SEISM portant sur la recherche en éducation ; le design de la plateforme et son évaluation, le pôle ERCOS. 7 chercheurs ELLIADD travaillent déjà au projet HUMANE. Il s’agit donc d’un véritable programme de recherche structurant.

5. Partenariats, environnement scientifique et co-tutelle internationale
Le travail du doctorant s’inscrira dans le cadre des réseaux de travail stimulants et porteurs suivants.
USA, état de New-York : la co-tutelle de thèse s’effectuera via le Rensselaer Polytechnic Institute (RPI) et son réseau « Tetherless World Constellation »4, et qui développe WhyIs et est membre du Web
Science Trust (fondé par Tim Berners-Lee). À noter que Whyis est développé dans le cadre de l’Institute for Data Exploration and Applications (RPI-IDEA), bien sûr utilisé dans le cadre de la recherche sur le
COVID-19. La co-directrice est Deborah L. McGuinness, contributrice du W3C, leader dans le web sémantique et en sciences cognitives. La co-tutelle impliquera l’équipe du RPI et non pas seulement la directrice de thèse, en particulier M. Jamie McCusker, dir. Data Operation et principal développeur du projet Whyis.
Canada, Laval : la Faculté des Sciences de l’Éducation de l’université de Laval5 apportera son expertise au niveau de l’articulation des compétences et de la définition des curriculums en HN, via Sylvie Barma et Thérèse Laferrière avec laquelle l’équipe du GIS 2IF travaille déjà (réseau Périscope,
64 chercheuses et chercheurs).
France, projet HUMANE et le réseau national des Groupes de Travail Numériques (gtNum) : ce projet de thèse sera effectué en collaboration avec le Groupe d’Intérêt Scientifique Innovation, Interdisciplinarité et Formation, le GIS 2IF7, fédère 9 laboratoires de recherche. Il porte le projet
« Humanités Numériques pour l’Éducation » (HUMANE) 8, financé par la Direction Numérique pour l’Éducation du Ministère de l’Éducation Nationale, dans le cadre du gtNum 7 « Humanités numériques,
entre recherche et éducation ». 5 académies sont impliquées dont Besançon.
Le projet HUMANE a enfin comme partenaires Canopé, la Dir. Du Numérique de la région Franche-Comté, et l’association internationale francophone Humanistica. La co-animation au niveau national est assurée par T. Hulin et B. Drot-Delange ; T. Hulin, qui dirigera cette thèse en tant que membre d’ELLIADD et co-animateur académique pour la Franche-Comté (avec C. Reffay).
L’université de Bourgogne est membre fondateur du GIS 2IF grâce à l’implication du CIMEOS ces dernières années. Une collaboration est d’ailleurs en cours entre l’IUT de Belfort et ELLIADD, via T.
Hulin, et l’IUT de Dijon-Auxerre dans le cadre du Learning Lab, et grâce au support du CIMEOS (O. Galibert), pour favoriser la transmission des compétences en humanités numériques entre les deux sites.

Profil du candidat :
Connaissance ou expérience dans le web sémantique, bon niveau de développement informatique.

Formation et compétences requises :
Formation Master 2 ou équivalent avec un excellent dossier (mention au master, très bon stage). Bon ou très bonne maîtrise de l’anglais et du français.

Adresse d’emploi :
UFR STGI – université de Franche-Comté
4 Place Lucien Tharradin, 25200 Montbéliard

Document attaché : 202105200809_sujetThese_ED592_36430(1).pdf

Brain vascular network segmentation and modeling from MRA images

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : CREATIS (Lyon)
Durée : 36 mois
Contact : odyssee.merveille@creatis.insa-lyon.fr
Date limite de publication : 2021-09-30

Contexte :
Ischemic stroke (the blockage of an artery that supplies blood to the brain) is a major cause of disability and death worldwide [6]. Recently, Endovascular Thrombectomy (EVT) has been proved very effective to treat ischemic stroke, which has led to its widespread adoption in clinical routine. EVT consists of the mechanical removal of the blood clot under image guidance. This interventional gesture is very difficult and it is estimated that around 50% of EVT have a suboptimal outcome. The World Federation of Interventional and Therapeutic Neuroradiology recently recommended that simulation be integrated in this curriculum, with the “ultimate goal of improving skills and reducing complications during patient management” [9].
The PreSPIN ANR project aims at designing a simulator of the EVT intervention to help surgeons to train and plan for this difficult intervention (see Figure 1). To do so, geometrically accurate models of the brain vascular network of patients suffering from ischemic stroke are required.
In this context, the subject of this PhD thesis is to develop solutions for segmenting and modeling the brain vascular network from Magnetic Resonance Angiography (MRA) images.

Sujet :
The goal of this thesis is to build geometrically and topologically accurate models of the brain vascular networks from MRA images. The main challenges will consist of designing robust methods, able to generate continuous vascular models of sufficient precision from millimetric-resolution data often corrupted by a low signal-to-noise ratio and physiological artifacts.
The 3D vascular model should consist of a 1D model with correct topology of the vascular structures (namely the centrelines of the vascular network) associated with a 3D smooth surface of the vessels.
Several strategies may be investigated depending on the candidate interest combining classic and deep-learning strategies.
Regarding the complexity of the problem, prior knowledge will have to be modeled to compensate the insufficient information carried by the image signal. Prior information on the vessels rely in particular on connectedness hypotheses and differential properties (orientation, curvature, tortuosity, etc.) that may be obtained from further data analysis, or by (multi-)atlas knowledge [8] from annotated datasets. These priors could be integrated in vessel segmentation based on variational paradigms [5] as regularization terms or could be integrated in deep-learning frameworks [11] such as topological loss [3,2], shape constraints [7] or multiscale architectures [4].
Centrerlines extraction could be develop from the fuzzy segmentation map using discrete geometry concepts such as critical kernel [1] or be directly extracted by end-to-end learning strategies [10].
Finally, 2D closed curve models, fitting the vessel border in each cross section along the centrelines, would be extracted to build the 3D continuous model.
A particular attention will be paid to the modeling of bifurcations that are crucial in simulations yet often forgotten in most segmentations and models of vascular networks.

Profil du candidat :
The candidate should have an academic background in image processing or medical imaging. He/she should have at least one previous experience (internship, project) in medical image processing.

Formation et compétences requises :
The candidate should have good technical skills in Python programming and optionally in Pytorch or TensorFlow. He/she should be able to work on Linux computers and on remote clusters.
The candidate will work inside the PreSPIN consortium and in close collaboration with multidisciplinary experts. He/she should be able to communicate on his/her work clearly with experts and non-experts of his/her field.

Adresse d’emploi :
Lyon

Thèse pluridisciplinaire : Droit et Data science

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Université Paris-Dauphine
Durée : 3 ans
Contact : elsa.negre@dauphine.fr
Date limite de publication : 2021-06-01

Contexte :
L’objet de ce projet de recherche doctorale serait d’imaginer un système de recommandations contextuelles à partir de l’analyse de la manière dont quelques pays européens ont géré la crise sanitaire du Covid-19. Le point de départ serait donc d’élaborer une base de données juridiques de droit comparé sur la gestion de cette crise susceptible d’alimenter un système de recommandations contextuelles.

Un système de recommandations tout comme le droit comparé peut reposer sur une analyse contextuelle pouvant aider les parties prenantes à trouver une information pertinente pour améliorer leur prise de décision. Il s’agit donc d’une aide automatisée à la prise de décision qui, elle, reste à la charge de la partie prenante.

Un tel projet part du paradigme qu’un système de recommandations suppose d’extraire d’une masse de données, des informations, et de créer de la connaissance. Or l’analyse de droit comparé repose avant tout sur la connaissance de la culture juridique des Etats. Il s’agira donc de voir dans quelle mesure un système de recommandations contextuelles pourrait venir en support des analyses de droit comparé.

Sujet :
Problématique : Peut-on imaginer un système de recommandation contextuel comme support au droit comparé ? Illustrations autour de la gestion de la pandémie Covid-19 dans quelques États européens.

Profil du candidat :
Le candidat devra être à l’aise avec le Droit comparé ainsi qu’avec la science des données.

Formation et compétences requises :
Master 2 minimum

Adresse d’emploi :
Université Paris-Dauphine, Paris, France

Document attaché : 202105191201_PhD-Law-IT.pdf

Colloque “Droit, IA et Santé” (DRIAS) — 21 et 22 juin — Virtualisé

Date : 2021-06-21 => 2021-06-22
Lieu : Virtualisé

Le colloque “Droit, IA et Santé” (DRIAS) qui se tiendra les **21 et 22 juin** en virtuel.

L’objectif de ce colloque est de donner des regards croisés sur les responsabilités éthiques, juridiques et techniques dans l’usage des outils d’IA en Santé.

Il y sera question de :

droit européen,
d’interprétabilité des décisions et responsabilité,
de certification de l’IA,
des compromis d’exploitation/protection des données personnelles.

Il s’adresse autant aux spécialistes de l’IA, aux spécialistes des données de santé et aux spécialistes des questions juridiques (détail du programme sur le site du colloque).

Le format choisi de ce colloque est celle de présentation par des spécialistes de ces questions.

Les inscriptions sont gratuites et peuvent se faire via le site du colloque : https://drias.irisa.fr/inscription/

Lien direct

Notre site web : www.madics.fr
Suivez-nous sur Tweeter : @GDR_MADICS
Pour vous désabonner de la liste, suivre ce lien.

BDA 2021

Date : 2021-10-25 => 2021-10-28
Lieu : Paris, http://bda2021.inria.fr/

37e Conférence sur la Gestion de Données – Principes, Technologies et Applications

La conférence “Gestion de Données – Principes, Technologies et Applications” (BDA) est le rendez-vous annuel incontournable de la communauté de la gestion de données en France.

Dates importantes

16 avril : ouverture du site de soumission
31 mai : date limite de soumission des résumés des articles courts, longs et de démonstration
7 juin : date limite de soumission des articles courts, longs et de démonstration
12 juin : date limite de soumission des articles de doctorants
1 juillet : notification aux auteurs
6 septembre : date limite de soumission des versions finales des articles
25-28 octobre : conférence BDA 2021

BDA 2021 invite les acteurs académiques et industriels de la recherche à soumettre leurs travaux récents afin de rendre compte des défis et des avancées scientifiques dans ce domaine extrêmement dynamique. Les soumissions attendues peuvent s’inscrire dans le continuum de travaux allant des plus théoriques jusqu’aux plus appliqués. Elles peuvent concerner la gestion de données au sens large, notamment les sujets émergents ou aux interfaces d’autres domaines comme la bio-informatique, les humanités numériques, le journalisme, la santé, etc.

La liste (non exhaustive) des thèmes pertinents est :
* Big Data et nouveaux paradigmes de traitement des données
* Entrepôts de données, fouille de données et découverte de connaissances
* Évaluation de requêtes, optimisation de requêtes, indexation, stockage
* Flux de données, capteurs et internet des objets
* Gestion de données dans les architectures décentralisées (cloud, fog, edge…)
* Gestion de données pour des applications collaboratives (crowd…)
* Gestion de données spatiales, temporelles, scientifiques, multimédia…
* Gestion de graphes de données et de connaissances
* Gestion des transactions et de la concurrence dans les nouvelles architectures
* Intégration des données, alignement de schémas, nettoyage de données
* Qualité des données, données imparfaites, traçabilité, confiance
* Réseaux sociaux, systèmes de recommandation, recherche d’information
* Sécurité et protection des données privées
* Science des données, apprentissage machine, analyse de données
* Systèmes de bases de données pour matériel moderne
* Systèmes de gestion de données embarqués
* Théorie des bases de données, modèles de données, langages de requêtes
* Visualisation des données, exploration et interaction
* Web sémantique, RDF, OWL, données liées, données ouvertes
* Workflows scientifiques et gestion de données

Modalités de soumission

Plusieurs catégories de contributions sont attendues :

Articles longs (12 pages max) : articles classiques de recherche.
Articles courts (6 pages max) : articles décrivant un travail en cours ou un retour d’expérience de projets de recherche / industriels.
Articles de doctorants (2 pages max) : présentation du sujet de thèse, qui fera l’objet d’une présentation sous forme de poster lors de la conférence.
Articles de démonstration (5 pages max) : présentation d’un prototype de recherche, qui fera l’objet d’une démonstration lors de la conférence.
Prix de thèse de la communauté BDA 2021

Notre site web : www.madics.fr
Suivez-nous sur Tweeter : @GDR_MADICS
Pour vous désabonner de la liste, suivre ce lien.

Post-doctoral/research engineer position (16 months) in machine/deep learning for floating wind turb

Offre en lien avec l’Action/le Réseau : MACLEAN/– — –

Laboratoire/Entreprise : IMT Atlantique/Lab-STICC
Durée : 16 mois
Contact : lucas.drumetz@imt-atlantique.fr
Date limite de publication : 2021-08-31

Contexte :
IMT-Atlantique, an engineering school under the supervision of the Ministry of Industry, is looking for a post-doc or research engineer for 16 months, to start at the earliest from June/July 2021. The position is based on the Brest
campus of the school. The candidate will join the Mathematical and Electrical Engineering (MEE) department, within the OSE (Observations, Signal, Environment) team of the Lab-STICC, whose research activities include signal and image processing for environmental data, and learning dynamical models using artificial intelligence. The open position is part of the SUBSEE4D project co-sponsored by Cervval, a company specializing in digital simulation and decision support in complex systems, France Energies Marines (FEM), the national research institute dedicated to Offshore Renewable Energy (ORE), and IMT Atlantique. Despite a significant offshore experience coming from the oil and gas (O&G) industry, several specificities of offshore renewable energy systems induce uncertainties of their subsea dynamics. Today, as any emerging technology, the efforts are focused on the system efficiency and robustness as part of the design stage. Very few works are dedicated to the in-service follow-up and the maintenance strategy which represent a critical point both technically and financially for the very next commercial farms. Within the SUBSEE4D project, FEM is in charge of the development of a mooring lines health monitoring software module. A multidisciplinary team including this position is being set-up to deliver software which will be offered to a floating wind farms operator for further customization and deployment on a scale 1:1 floating wind turbine pilot project. The software aims at improving the estimation of the fatigue life of the mooring components as well as the related alert systems using machine learning techniques, taking as input different kinds of data, including environmental (winds, waves etc). IMT Atlantique brings to the project its expertise in machine learning, in particular for dynamical systems: data assimilation, quantification and uncertainty propagation in dynamical systems learned from data, interpola- tion/reconstruction of time series [1, 2], emulation of physical models, physics-aware machine learning [3], forcing by explanatory variables, predictor importance assessment… In this context, the candidate will take part in the IT development of the data-processing platform. He / She will provide technical expertise and will prototype statistical and probabilistic modesl that will be used for variables estimation and related uncertainties, as well as supervised and unsupervised classification algorithms to evaluate the system state, before being integrated in the module developed by FEM.

Sujet :
IMT-Atlantique, an engineering school under the supervision of the Ministry of Industry, is looking for a post-doc or research engineer for 16 months, to start at the earliest from June/July 2021. The position is based on the Brest
campus of the school. The candidate will join the Mathematical and Electrical Engineering (MEE) department, within the OSE (Observations, Signal, Environment) team of the Lab-STICC, whose research activities include signal and image processing for environmental data, and learning dynamical models using artificial intelligence. The open position is part of the SUBSEE4D project co-sponsored by Cervval, a company specializing in digital simulation and decision support in complex systems, France Energies Marines (FEM), the national research institute dedicated to Offshore Renewable Energy (ORE), and IMT Atlantique. Despite a significant offshore experience coming from the oil and gas (O&G) industry, several specificities of offshore renewable energy systems induce uncertainties of their subsea dynamics. Today, as any emerging technology, the efforts are focused on the system efficiency and robustness as part of the design stage. Very few works are dedicated to the in-service follow-up and the maintenance strategy which represent a critical point both technically and financially for the very next commercial farms. Within the SUBSEE4D project, FEM is in charge of the development of a mooring lines health monitoring software module. A multidisciplinary team including this position is being set-up to deliver software which will be offered to a floating wind farms operator for further customization and deployment on a scale 1:1 floating wind turbine pilot project. The software aims at improving the estimation of the fatigue life of the mooring components as well as the related alert systems using machine learning techniques, taking as input different kinds of data, including environmental (winds, waves etc). IMT Atlantique brings to the project its expertise in machine learning, in particular for dynamical systems: data assimilation, quantification and uncertainty propagation in dynamical systems learned from data, interpola- tion/reconstruction of time series [1, 2], emulation of physical models, physics-aware machine learning [3], forcing by explanatory variables, predictor importance assessment… In this context, the candidate will take part in the IT development of the data-processing platform. He / She will provide technical expertise and will prototype statistical and probabilistic modesl that will be used for variables estimation and related uncertainties, as well as supervised and unsupervised classification algorithms to evaluate the system state, before being integrated in the module developed by FEM.

Profil du candidat :
The available data sets for training will first come from realistic simulations of a floating wind turbine, and will be progressively enriched with in-situ sensor data. Machine Learning tools will be used to optimally combine simulations and observations, and to include physical or structural constraints to the learning algorithms. Methodological developments will also be expected, to complement and further improve research on dynamical systems learning from data performed in the IMT team. Publications in international conferences and journals will be issued from this work. Floating wind turbine global simulation involve coupled aero-hydro-servo-elastic physical models. The candidate will need to work in close collaboration with the project team to ensure the physical consistency the developed models from learning phase to validation phase. This position requires the ability to fit in a multidisciplinary team.

Formation et compétences requises :
The candidate must have (preferably) a PhD or possibly a Masters/Engineering degree in image or signal processing,
machine learning or related fields, or equivalent experience. Qualifications required:
• Machine/Deep Learning, Signal and Image Processing, Applied Mathematics, Dynamical Systems
• Programming in Python (numpy, scipy, matplotlib…)
• Experience in machine/deep learning methods and associated libraries in Python (Pytorch, Keras, Tensorflow,
scikit-learn…)
• An experience related to physical modeling of complex systems or renewable energies will positively appreciated

Adresse d’emploi :
The position is based at IMT Atlantique, Brest, France

Please send a resume and cover letter to lucas.drumetz@imt-atlantique.fr and Romain.Ribault@france-energies-marines.org.

Document attaché : 202105121310_fiche_de_poste_CDD_18_mois_dynamique_d’ancrage_en_new.pdf

Machine-learning-aided discovery of MOFs for an energy-efficient carbon capture

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : SIMAP / LIG
Durée : 3 ans
Contact : Emilie.Devijver@univ-grenoble-alpes.fr
Date limite de publication : 2021-05-19

Contexte :
Addressing climate change is among the most urging concerns in international policy. To this respect, the implementation of efficient carbon capture has been proposed as a means of enabling the continued use of fossil fuels in the near term, while renewable energy sources gradually replace our existing infrastructure. Metal-organic frameworks (MOFs) are three-dimensional porous materials that are recently attracting much attention as possible good candidates for an efficient carbon capture. The goal of this project is to computationally design optimal MOFs for an energy efficient carbon-capture- and-release. Specifically, an efficient CCR mechanism will be achieved by employing a change in the affinity for the gas (and thus a change in its uptake) upon an electronic transition induced by external stimuli.

Sujet :
A method combining machine learning and electronic structure simulations (DFT, many- body perturbation theory or quantum chemistry methods) will be developed, tested and employed to provide the first candidate set for the optimal materials. A second step will be performed to further tune and improve the properties of these materials for the desired application. Finally, in order to compare with existing good performer MOFs, the adsorption properties such as the working capacity will be computed for the best performers selected from the previous steps. Regarding the machine learning approach, the challenge is to develop a robust ML model that can provide highly predictive structure– property relationship using a small training set of high quality electronic structure simulations. The model will be developed on small molecules and then tested and used on databases of existing MOFs.

Profil du candidat :
We look for highly motivated candidates with a Master degree in Machine Learning Physics (or equivalent). A good knowledge of written and spoken English is essential to communicate with our external collaborators (US, Spain). The candidate should have some skills in programming languages (Fortran, C/C++, Python) and Linux. Basic knowledge of parallel computing will be appreciated.

Formation et compétences requises :
The deadline for sending your application is May 20th and interviews will be conducted before the end of May.
Applications include: a concise but informative cover letter, CV, Master 1 and Master 2 (or equivalent) marks, names and contact of at least two references that can be joined for recommendation letters.

Adresse d’emploi :
The PhD student will be located at SIMaP laboratory in Grenoble. SIMaP (https://simap.grenoble-inp.fr/) is a lab hosting scientists from different disciplines working on materials science using both experiments and simulations. The PhD is part of the multidisciplinary institute in artificial intelligence MIAI (https://miai.univ-grenoble-alpes.fr/en/multidisciplinary-institute-in- artificial-intelligence-academic-year-2020-2021-en-799001.htm). Two supervisors are located at SIMaP and a third one, Emilie Devijver, at LIG (https://www.liglab.fr/), the lab of informatics in Grenoble, which is located close to SIMaP, in the “campus universitaire”. Grenoble, the capital of the Alpes, offers an international and simulating environment for both leisure (mountain sport) and science. Regular seminars are organized by MIAI, SPF38, and other research centers such as ESRF and ILL.

A Complex Network-Based Framework for Resilience Characterisation and Optimisation of Large-scale Mu

Offre en lien avec l’Action/le Réseau : – — –/Doctorants

Laboratoire/Entreprise : LICIT – Lyon
Durée : Three years
Contact : angelo.furno@univ-eiffel.fr
Date limite de publication : 2021-05-31

Contexte :
In the last decade, the multi-modal transportation system of large cities has been profoundly jeopardized by a variety of sudden and extreme perturbations [1]. According to the World Economic Forum’s Global Risks Report 2019, extreme weather events are among the global risks of highest concern. Heavy precipitation, along with associated flooding in urban mega-regions, has been on the rise both in intensity and frequency under the dual forcings of climate change and rapid urbanization [2]. Similarly, in recent times, the COVID-19 pandemic has radically transformed human mobility habits, leading to globally unprecedented decline in transit ridership as well as drastic reduction of capacity of transit as a consequence of social distancing [3].

These factors of vulnerability related to transport are exacerbated by the fact that a transportation network is a complex entity composed of multiple interdependent subsystems (underground, train, tramway, bus transit, and road network), which are spatially constrained and that also rely on other urban infrastructure systems such as the power grid and communication networks. Thus, even limited disruptions in one component of this complex system, often triggered by exogenous hardly predictable events, can lead to a severe loss of lifeline functions via cascading failures. Furthermore, as urban transport systems are becoming increasingly connected and autonomous, one should also consider the growing threat of opportunistically targeted cyber-attacks designed to take advantage of natural hazard events [2].

In this context, this thesis proposes to investigate approaches based on complex network theory and network optimization towards: i) advancing the study of the resilience of multi-modal urban transport systems by means of an advanced multi-layer modelling of the urban transport network; ii) defining a tool to support the design of complex disruptive scenarios, coupling targeted attacks, weather-related phenomena as well as sudden variations of the demand and offer of the transport system induced by exogenous factors (floods, pandemic, etc.); iii) evaluating their impacts on the performance of the existing transit system in terms of complex networks metrics.
The thesis will also explore solutions for resilience enhancement based on (topological) reconfiguration scenarios via network optimization and integration of on-demand mobility facilities (e.g., park-and-ride) in order to support the dynamic adaptation of the system to such variations and rapid recovery from extreme perturbations with increased resilience.

The subject is at the interface between network science and transportation modelling, with possible applications in the field of operations research.

Sujet :
The thesis program will develop around the following scientific challenges:

Modelling and coding of the multi-modal transport network of the Lyon urban area, by focusing on its transit system (bus, tramway, underground) and the city road network. An approach based on multi-layer networks [1, 4, 5] will be leveraged by relying on data from the National Institute of Geography (IGN) and from the local provider of the transit system of Lyon (Keolis-Sytral). The augmentation of the model with travel demand information will be considered as an essential research direction, based on previous work from the team [6].

Identification of complex networks metrics to describe the resilience and robustness of the multi-modal transport network. In particular, the size of the giant connected component (GCC), network efficiency, adapted to the context of multi-layer modelling and cascading failures [2], will be a potential candidate for robustness quantification in dynamic configurations. Additional metrics related to vulnerability, robustness and resilience for characterizing the performance of transport systems under disturbance will be explored as well [7].

Definition of a framework for the injection of multiple joint failures in the multi-modal transport system (disruptive scenario testing). More traditional strategies based on random failures as well as more complex approaches involving flood probability modelling and high centrality node failures will be investigated to simulate high-risk scenarios and evaluate their impact on the aforementioned robustness metrics. The expected solutions should allow modelling of compound disruptions, including flood scenarios combined with targeted attacks as well as global reduction of the transit capacity or travel demand.

Analysis of optimisation strategies for improvement of network robustness. Solutions based on optimal graph augmentation [8, 9], identification of the most critical sub-network, as well as the optimal allocation of on-demand mobility facilities (e.g., park-and-ride facility location [10]) for increased network robustness will be investigated.

Profil du candidat :
The phd student should have an expertise on computer and network science as well as complex systems modelling. Knowledge of traffic theory, data science and operations research tools will be considered as a plus.

Proven written and verbal communication skills with fluency in written and spoken English.

Formation et compétences requises :
Master two degree in Computer Science, Civil Engineering, Physics, Mathematics and Network Science.

Adresse d’emploi :
LICIT/IFSTTAR
25, avenue François Mitterrand
Cité des Mobilités
Case 24
F-69675 Bron Cedex
Tél. : +33 (0)4 72 14 24 70

LICIT/ENTPE
Rue Maurice Audin
F-69518 Vaulx-en-Velin Cedex
Tél : +33 (0)4 72 04 77 10

MaDICS

Masses de Données, Informations et Connaissances en Sciences

Big Data - Data Science

Archives

Data Lake Sémantique : une approche combinant l’IA symbolique et le machine learning

Combinaison de méthodes de commande optimale et d’intelligence artificielle pour le contrôle d’un vé

Systèmes intelligents pour la transmission des Humanités numériques et pour la recherche en santé

Brain vascular network segmentation and modeling from MRA images

Thèse pluridisciplinaire : Droit et Data science

Colloque “Droit, IA et Santé” (DRIAS) — 21 et 22 juin — Virtualisé

BDA 2021

Post-doctoral/research engineer position (16 months) in machine/deep learning for floating wind turb

Machine-learning-aided discovery of MOFs for an energy-efficient carbon capture

A Complex Network-Based Framework for Resilience Characterisation and Optimisation of Large-scale Mu