MaDICS

Gestion, analyse et visualisation de graphes d’applications

Apr 30 – May 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIRIS/CAST Software Intelligence
Durée : 36
Contact : hamamache.kheddouci@univ-lyon1.fr
Date limite de publication : 2023-04-30

Contexte :
Cette proposition de thèse se place dans le cadre d’une collaboration entre la société CAST (Paris) et le laboratoire LIRIS (Université Lyon 1). La collaboration s’inscrit dans les domaines des Graphes et du Big Data.

Sujet :
Contexte scientifique
Les graphes des applications sont des structures de données extraites automatiquement à partir de l’analyse du code, des fichiers projets (comme les pom.xml dans l’environnement Java), et des structures de données (relationnelles, hiérarchiques ou simples fichiers). CAST Imaging dispose d’une grande base de connaissances de ces graphes qui couvre plus de 50 langages et technologies concernant des applications à la fois modernes exploitant les dernières nouveautés des fournisseurs Cloud comme AWS ou Azure, mais aussi des plus classiques faites autour de JEE, .NET, C, les bases de données relationnelles, etc. Ces applications sont représentées via une interface graphique dédiée par des graphes où les éléments du code (fonction, classes, procédure, tables, fichiers de données, etc.) sont représentés par des nœuds, et les dépendances (appel, héritage, composition, etc 😉 entre ces éléments sont représentées par des arêtes/arcs. Par conséquent, l’analyse et la compréhension de ces applications passent naturellement par l’analyse et la compréhension de leurs graphes respectifs.

Objectifs de la thèse
Les graphes des applications peuvent comporter plusieurs millions de nœuds et d’arêtes/arcs. Ils peuvent avoir des représentations lourdes notamment quand on souhaite prendre en compte un maximum d’informations sur les applications. Ils deviennent des multigraphes hétérogènes où les nœuds ne sont pas tous de même nature, les arêtes peuvent décrire plusieurs relations entre une même paire de nœuds, avec des ensembles d’attributs et de poids à la fois sur les nœuds et sur les arêtes. Ces graphes sont riches en informations, mais leur analyse et visualisation dans leurs structures réelles deviennent difficiles. Notre objectif dans cette thèse est donc de s’appuyer sur des modélisations avancées et des algorithmes avancés pour analyser les graphes d’applications et proposer des représentations simples de ces graphes facilement explorables d’un point de vue algorithmique et compréhensibles d’un point de vue visuel.

Dans un premier temps, nous nous focaliserons sur l’enrichissement des graphes d’applications actuels aux niveaux structurel et sémantique. D’un point de vue structurel, nous identifierons clairement les classes de nœuds (hétérogénéité) et les relations structurelles intra-classes et inter-classes (héritage, inclusion, appels de fonctions, etc.). D’un point de vue sémantique, nous capturerons un maximum d’informations sémantiques sous forme d’attributs, de poids ou de relations entre objets. Nous développerons par la suite des techniques de stockage et d’indexation de ces graphes qui permettraient le passage à l’échelle.

Dans un deuxième temps, nous mènerons une analyse algorithmique des graphes d’applications. Les structures macroscopiques des graphes d’applications sont quelconques, mais l’analyse de leurs sous-graphes, la recherche et la découverte de patterns et des propriétés structurelles permettent une meilleure compréhension du graphe. L’analyse des graphes d’applications s’appuyera à la fois sur des algorithmiques d’exploration de graphes et sur des algorithmes de machine learning (clustering, graph embedding, etc.). Cette analyse algorithmique des graphes d’applications servira d’une part à mieux comprendre ces graphes et d’autre part à concevoir des représentations simples de ces graphes qui faciliteront leur visualisation. Ces représentations seront des structures résumant le graphe d’application sous forme de structures hiérarchiques multi-niveaux, avec des regroupements et compressions de nœuds/sous-graphes, arêtes, etc. Pour ce faire, nous serons amenés à explorer la littérature des graphes liées aux techniques de décomposition, d’agrégation et de compression de graphes, pour proposer de telles représentations et de les adapter pour qu’elles prennent en compte les contraintes réelles des graphes d’applications (hétérogénéité des nœuds et arêtes, attributs, poids, etc.) et qui préservent au mieux les propriétés structurelles des graphes d’applications.

La visualisation des graphes d’applications est une partie centrale de la thèse. L’objectif est de proposer des méthodes de navigation dans le graphe d’application qui permettent de guider/orienter l’utilisateur dans la découverte et la compréhension du graphe sans le submerger immédiatement avec tout le détail dont nous disposons. D’où l’intérêt des représentations des graphes d’applications décrites dans le paragraphe précédent. Ces représentations simples donneront une visualisation claire qui permettra à l’utilisateur d’effectuer une meilleure analyse visuelle du graphe. Notre objectif dans cette partie visualisation est de développer des algorithmes qui donneront une meilleure performance en temps d’analyse (affichage, exploration etc.), et une visualisation compréhensible (représentations réduites et simplifiées). Pour ce faire, nous explorerons des techniques de visualisation progressive de sorte que l’utilisateur puisse découvrir, à la demande (d’une façon interactive), ou automatiquement, un graphe d’applications et ses représentations pas-à-pas, et de plus, afficher ces parties du graphe de différents angles avec différentes informations en utilisant par exemple des vues 3D des représentations des graphes d’applications.

Finalement, il est à noter que ces graphes d’applications sont dynamiques car les applications sont mises à jour régulièrement. Nous serons amenés à automatiser les mises à jour sur les graphes d’applications.

Profil du candidat :
Les candidat.e.s ayant obtenu un M2 recherche/ingénieur en informatique, intéressé.e.s, disposant de connaissances approfondies en algorithmique des graphes, machine learning, big data et programmation sont prié.e.s d’envoyer leur CV détaillé, une lettre de motivation pour le sujet et des relevés de notes (avec le classement si possible) aux emails suivants, avant le 30 avril 2023 :
• Hamamache Kheddouci : hamamache.kheddouci@liris.cnrs.fr,
• Olivier Bonsignour : o.bonsignour@castsoftware.com,
• Damien Charlemagne : d.charlemagne@castsoftware.com
• Salma Nagbi : s.nagbi@castsoftware.com

Formation et compétences requises :
Les candidat.e.s ayant obtenu un M2 recherche/ingénieur en informatique, intéressé.e.s, disposant de connaissances approfondies en algorithmique des graphes, machine learning, big data et programmation sont prié.e.s d’envoyer leur CV détaillé, une lettre de motivation pour le sujet et des relevés de notes (avec le classement si possible) aux emails suivants, avant le 30 avril 2023 :
• Hamamache Kheddouci : hamamache.kheddouci@liris.cnrs.fr,
• Olivier Bonsignour : o.bonsignour@castsoftware.com,
• Damien Charlemagne : d.charlemagne@castsoftware.com
• Salma Nagbi : s.nagbi@castsoftware.com

Adresse d’emploi :
Le/la doctorant.e effectuera sa recherche à la fois dans la société CAST SA et dans l’équipe GOAL du laboratoire LIRIS.

Document attaché : 202303170832_Sujet_Thèse_CAST-LIRIS.pdf

Categories: theses

Recherche efficace de motifs spatio-temporels dans des grands cubes de données satellites

Apr 30 – May 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : IRISA Vannes et CLS Lille
Durée : 36 mois
Contact : sebastien.lefevre@irisa.fr
Date limite de publication : 2023-04-30

Contexte :
Contexte industriel

Depuis 2011, le Copernicus Land Monitoring Service (CLMS https://land.copernicus.eu/) fournit des produits pour la surveillance de l’état, des changements et des caractéristiques de la couverture/utilisation des terres végétalisées, non végétalisées, des variables biophysiques, des conditions de l’eau et de la cryosphère. Cette cartographie à large échelle utilisent les données d’observation à haute résolution de la terre (10 m de résolution spatiale, une acquisition toutes les semaines) gratuites et libres d’accès telles que Sentinel (1 et 2), ainsi que des données commerciales à très haute résolution spatiale (1 m de résolution spatiale, tous les ans).
Dans ce contexte, il est important de développer des algorithmes, des méthodes et procédés semi- automatiques (voire automatiques) afin de limiter au strict nécessaire le recours à des traitements humains au regard des masses de données manipulées. Des interventions humaines, même de courte durée, répétées à l’échelle de l’Europe voire du globe ont un effet majeur sur la capacité à fournit les produits Copernicus en un temps raisonnable. De plus, il est nécessaire d’optimiser les traitements informatiques pour réduire leur coût financier et énergétique. Dans ce contexte, l’unité de R&D du pôle Terre et Eau du groupe CLS cherche à concevoir des solutions (semi-)automatiques efficaces pour analyser de grands volumes de données d’observation de la Terre.
La recherche d’automatisation a donné lieu à une collaboration entre CLS et OBELIX depuis plusieurs années, afin de concevoir et déployer des solutions efficientes de cartographie automatisée large-échelle.

Contexte scientifique

Ainsi, dans le cadre d’une demande de l’Agence Européenne de l’Environnement, CLS et OBELIX ont conçu et déployé une chaîne de production originale de la cartographie des trames vertes à l’échelle continentale pour le compte du programme Copernicus. Pour faire face au volume de données à traiter (38 000 images, soit 120 To), et à la diversité des scènes étudiées, la solution développée s’est appuyée sur des algorithmes efficaces de caractérisation multi-échelle des pixels (profils d’attributs) à l’aide des hiérarchies morphologiques, et de classification semi-supervisée par une approche ensembliste de forêts aléatoires. Elle a été implantée à l’aide de composants logiciels C++ diffusés sous licence libre : TRISKELE et Broceliande. Une attention particulière est portée à l’optimisation systématique de toutes les étapes du processus, y compris l’extraction des descripteurs. Cette étape, centrale dans le processus de cartographie automatique, est souvent mise en oeuvre à l’aide des profils d’attributs calculés efficacement à l’aide des hiérarchies morphologiques.
Dans un autre contexte, l’équipe OBELIX a collaboré avec le CNES dans le cadre d’une étude R&T pour développer une solution efficace de recherche automatique par l’exemple dans des bases d’images satellites. Pour cela, elle a exploité les hiérarchies morphologiques pour calculer des histogrammes de formes (ou Pattern Spectra) qui permettent de mettre en oeuvre des algorithmes efficaces de recherche par l’exemple. La solution ainsi développée rend possible la recherche de motifs spatiaux de taille variable (et non connue a priori) dans une base de très grandes images. Contrairement aux approches populaires en vision par ordinateur basées sur l’apprentissage automatique ou profond, elle ne s’appuie pas sur un entraînement préalable d’un modèle prédictif, et fonctionne sans recourir à des données annotées. Ce travail a abouti au démonstrateur Korrigan.
Au vu de la pertinence des hiérarchies morphologiques et des outils qui en découlent (profils d’attributs, histogrammes de formes) pour élaborer des solutions efficaces d’analyse semi-automatique d’images satellites, leur extension aux séries temporelles d’images satellites a également été étudiée, au travers d’une thèse de doctorat conduite conjointement par l’équipe OBELIX, le CNES, et CLS.

Sujet :
En dépit des progrès récents en intelligence artificielle appliquée à l’observation de la Terre, illustrés par des performances toujours accrues sur des jeux de données standardisés, son utilisation dans un contexte de cartographie opérationnelle reste confrontée à différents verrous, que la thèse cherchera à lever.
En premier lieu, les approches modernes d’analyse d’image requièrent, dans leur grande majorité, de disposer au préalable d’une grande quantité d’exemples afin d’entraîner les modèles prédictifs comme les réseaux de neurones profonds. Les solutions interactives, permettant à un utilisateur de fouiller ses données afin d’en extraire les informations recherchées et d’en découvrir de nouvelles, restent peu étudiées.
De plus, l’avènement de l’apprentissage profond a amené un besoin toujours plus important en ressources in- formatiques : capacité de calcul sur CPU ou GPU, mémoire vive. La sobriété numérique est devenue aujourd’hui une question sociétale majeure, au-delà des intérêts économiques qu’elle peut procurer.
Enfin, la majorité des développements récents portent sur l’identification de motifs soit purement spatiaux (segmentation sémantique, détection d’objets) soit purement temporels (classification de séries temporelles). Les séries temporelles d’images satellites, disponibles en masse avec l’avènement de missions telles que Landsat ou Sentinel, nécessitent de porter une attention conjointe aux dimensions spatiale et temporelle.
La prise en compte de ces différents verrous s’effectuera au travers d’une problématique scientifique originale : la recherche efficace de motifs spatio-temporels dans des grands cubes de données satellites. Cette recherche, conduite de façon interactive et itérative par un utilisateur, s’appuiera sur un nombre restreint d’exemples, sur la base desquels une fouille d’un cube de données spatio-temporelles sera effectuée afin d’en extraire les motifs les plus similaires.
Bien que le paradigme de la recherche par l’exemple ou par le contenu ait été largement étudié en analyse d’image, y compris en observation de la terre, son application à des exemples spatio-temporels reste originale. Elle permettrait pourtant d’offrir de nombreux cas d’utilisation, comme par exemple l’identification d’inondations, de feux de foret, de fauchages non conformes de prairie, etc.
Ce mécanisme de fouille interactive permettra également de constituer facilement des ensembles de données de référence, qui pourront être par la suite utilisés pour entraîner des modèles IA dont la pertinence reste avérée lorsque les phénomènes étudiés peuvent être observés en amont.
Afin de mettre en oeuvre un tel mécanisme, plusieurs paradigmes peuvent être explorés, et nous souhaitons comparer l’intérêt des approches stochastiques et déterministes dans un tel contexte. Alors que les premières sont généralement basées sur un apprentissage et font aujourd’hui office de référence dans des tâches usuelles de classification (réseaux de neurones profonds), les secondes présentent l’avantage de pouvoir être implantées à l’aide d’algorithmes particulièrement efficaces, comme les hiérarchies morphologiques par exemple. Dans tous les cas, une attention particulière sera portée à l’efficience, au passage à l’échelle, et à la robustesse de la méthode en présence de peu d’exemples.

Profil du candidat :
Le candidat devra être titulaire d’un Master ou d’un Diplôme d’Ingénieur prioritairement en Informatique, ou à défaut en Traitement du Signal et des Images, ou en Mathématiques Appliquées. Il devra être capable d’aborder les différents aspects du sujet, tels que la conception et l’optimisation d’algorithmes efficaces, la mise en oeuvre de réseaux de neurones profonds au travers de frameworks existants, l’implantation et l’expérimentation dans des environnements informatiques complexes, la maîtrise des fondements scientifiques des méthodes étudiées.

Formation et compétences requises :
Les compétences suivantes sont attendues :
— excellentes compétences en algorithmique et programmation (C++, Python)
— expérience du traitement d’image et/ou de l’apprentissage profond
— intérêt marqué pour les problématiques liées à l’observation de la terre (des connaissances en télédétection
seront appréciées)
— maîtrise de l’anglais à l’oral et à l’écrit
— curiosité et rigueur scientifiques
— esprit d’analyse et de synthèse
— communication et esprit d’équipe

Adresse d’emploi :
Les travaux se dérouleront majoritairement dans les locaux de CLS à Villeneuve d’Ascq à proximité de Lille (59) avec un accompagnement de l’équipe OBELIX (UMR 6074 IRISA) à Vannes (56). L’inscription académique s’effectuera au sein de l’Université Bretagne Sud (UBS) et de l’École Doctorale MathSTIC – Bretagne Océane.
La thèse sera dirigée par Sébastien Lefèvre (Professeur, UBS) et co-encadrée par François Merciol (Maître de Conférences, UBS) et Antoine Masse (Responsable Département R&D, CLS).

Document attaché : 202303181051_CIFRE-CLS-IRISA.pdf

Categories: theses

Fri

Interactions naturelles en temps réel dans les communautés mixtes humains – compagnons artificiels

May 5 – May 6 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LITIS / INSA Rouen Normandie
Durée : 36 mois
Contact : alexandre.pauchet@insa-rouen.fr
Date limite de publication : 2023-05-05

Contexte :
La croissance du nombre d’objets connectés, des robots assistants et des interfaces humain-machines intuitives et naturelles a permis une démocratisation croissante des systèmes cyber-physiques et socio-techniques. Il s’agit de systèmes intégrant à la fois des utilisateurs
humains, des robots et des agents artificiels, en interactions sociales dans desenvironnements réels, augmentés ou virtuels.
Si les interactions avec un seul utilisateur en tour par tour disposent d’une littérature abondante, tous les verrous scientifiques et techniques ne sont pas encore levés concernant les interactions dialogiques. La mise en place de systèmes coopératifs intégrant plusieurs utilisateurs humains, agents virtuels et robots reste difficile. Depuis l’avènement de l’informatique affective (Picard, 1997), des Agents Conversationnels Animés -ACA- (Cassel,
2000), et des robots sociaux (Gockley et al., 2005), qui mettent en œuvre des systèmes prenant en compte les émotions des utilisateurs et pouvant en « jouer », n’est que très peu traitée dans un contexte multi-partie. En particulier, la capacité d’un agent collaboratif à répondre « just in time » à son contexte est peu développée : la plupart des systèmes attendent la fin de chaque tour de parole avant d’interpréter les énoncés des utilisateurs et de décider de la prochaine action communicative à effectuer. Ils ont ainsi un temps de réaction bien supérieur à celui d’un humain, introduisant des ruptures défavorables à l’interaction.

Sujet :
L’objectif de cette thèse est d’étudier les moyens théoriques et pratiques pour permettre une interaction multimodale et multi-parties en temps quasi réel afin d’en améliorer la fluidité et l’acceptabilité. Ces travaux comportent deux originalités principales : (1) la gestion au fur et à
mesure du dialogue multimodal aussi bien en entrée qu’en sortie, permettant aux compagnons virtuels et robotiques d’améliorer leurs capacités communicatives, verbales ou non-verbales, et (2) la dimension multi-parties, c’est-à-dire intégrant plusieurs agents virtuels, robots et humains. Il s’agit de concevoir des modèles et protocoles d’interaction multi-parties, que cette interaction se déroule uniquement entre agents autonomes aussi bien qu’entre agents autonomes et humains dans le cadre de sociétés mixtes. Une façon de générer ces modèles d’interaction est d’utiliser des mécanismes d’apprentissage automatique.
Une des difficultés consistera donc à intégrer des mécanismes dits « just in time » dans un contexte multimodal et multi-parties, permettant la prise en compte de tous les membres d’équipes mixtes agents-humains, dans lesquels les effectifs (nombre d’agents, nombre d’humains dans l’équipe) peuvent varier.
Nous nous focaliserons sur l’utilisation d’ACA et de robots. Dans ce ontexte, la maturation des outils pour la réalité mixte (réalité virtuelle et réalité augmentée), que ce soit en termes logiciel (e.g. Unity3D, Unreal Engine, ARToolKit, …) comme matériel accessible au grand public (Oculus Rift, HTC Vive, Playstation VR, …), et le développement des robots sociaux
(Nao, Pepper, …) permet d’envisager de nouvelles façons d’intégrer ces agents au sein d’environnements mixtes réel/virtuel.

Profil du candidat :
M2 ou école d’ingénieur

Formation et compétences requises :
M2 ou école d’ingénieur

Adresse d’emploi :
INSA Rouen NOrmandie (Saint-Étienne-du-Rouvray)

Document attaché : 202304192002_DescriptionSujet.pdf

Categories: theses

Mon

Label Shift Matching for Anomaly Detection and Classification in Time Series

May 8 – May 9 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LITIS Lab (Université & INSA Rouen Normandy)
Durée : 3 ans
Contact : paul.honeine@univ-rouen.fr
Date limite de publication : 2023-05-08

Contexte :
Keywords:
Deep learning, anomaly detection, unsupervised learning, optimal transport, domain adaptation, label shift, time series

Supervision Team:
The PhD candidate will be a member of the Machine Learning group in LITIS Lab (University and INSA Rouen Normandy). She/he will be advised by Fannia Pacheco, Paul Honeine, Maxime Berar and Gilles Gasso.

Application:
Please send CV and transcripts of grades to fannia.pacheco@univ-rouen.fr and paul.honeine@univ-rouen.fr.
The deadline for application is the 8th of May 2023.

Sujet :
Description

Deep learning relies on large datasets to learn decision functions for a specific task. These decision functions are prone to be inaccurate at inference for online data, which may be corrupted by anomalies or suffer from a distribution shift. In the most difficult context, training data are labeled, while test data are unlabeled. Under some mild assumptions, the main distribution shift families are covariate shift and label shift. The former is related to causal learning (predicting effects, namely the conditional p(y|x) does not change), and the latter to anti-causal learning (predicting causes, namely the conditional p(x|y) does not change). This thesis focuses on the label shift for online data, since it emerges naturally in diagnosis tasks [1].

The PhD student will take advantage of recent developments in domain adaptation, and more specifically using Optimal Transport (OT), in order to address label shifts in time series. Domain adaptation by OT [2, 3] consists in transporting the source domain feature space to a space equivalent to the target domain space, and then learning a new feature space and decision function where both the source and the target label distributions match. Two major difficulties will be addressed in this PhD thesis. First, we consider unsupervised domain adaptation, namely the target data is available and unlabeled. Whilst label shift is still present in unsupervised domain adaptation, one would like to find the best matching between the source domain and the clusters created in the target domain. To this end, it assumes that all the classes (although unlabeled) are available in the target domain [4, 5]. Second, we consider online domain adaptation, which consists in performing domain adaptation on the fly [6]. This means that the target domain is not available, but new batches of data are available sequentially in order to infer the adaptation, thus requiring online algorithms [7].

This PhD thesis aims to address the most challenging conditions in an online framework and for real-world time-series applications. Its main objectives can be divided into three parts:
i) Study and formalize label shifts and its consequences over classification performance and anomaly detection in times series data.
ii) Propose a method to conceive same label matching in online contexts, by investigating recent advances in OT for domain adaptation.
iii) Create a framework that couples the label matching and unsupervised learning for new distribution discovery.
The proposed framework and devised methods will be evaluated in a variety of time series data for anomaly detection [8], with a focus on fault diagnosis for predictive maintenance in industrial applications [9, 10].

References

[1] Z. Lipton, Y. Wang and A. Smola, “Detecting and correcting for label shift with black box predictors,” ICML, 2018.
[2] N. Courty, R. Flamary, D. Tuia and A. Rakotomamonjy, “Optimal Transport for Domain Adaptation,” IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017.
[3] M. Alaya, M. Berar, G. Gasso, and A. Rakotomamonjy, “Theoretical guarantees for bridging metric measure embedding and optimal transport,” Neurocomputing, 2022.
[4] A. Rakotomamonjy, R. Flamary, G. Gasso, M. E. Alaya, M. Berar, and N. Courty, “Optimal transport for conditional domain matching and label shift,” Machine Learning, 2022.
[5] A. Alaoui-Belghiti et al., “Semi-supervised optimal transport methods for detecting anomalies,” ICASSP, 2020.
[6] M. de Carvalho et al., “ACDC: Online unsupervised cross-domain adaptation,” Knowledge-Based Systems, 2022.
[7] A. Mensch and G. Peyré, “Online Sinkhorn: Optimal transport distances from sample streams,” NeurIPS, 2020.
[8] K. Choi et al., “Deep Learning for Anomaly Detection in Time-Series Data: Review, Analysis, and Guidelines,” IEEE Access, 2021.
[9] F. Pacheco et al., “Deep Ensemble-Based Classifier for Transfer Learning in Rotating Machinery Fault Diagnosis,” IEEE Access, 2022.
[10] P. Honeine, S. Mouzoun, and M. Eltabach. “Neighbor retrieval visualizer for monitoring lifting cranes,” CMMNO, 2018.

Profil du candidat :
The PhD candidate must be a graduate student or have a MSc or engineering degree in one of the following fields: computer science, data science, applied mathematics or equivalent. She/he must have a strong background in machine learning and/or signal processing and/or computer vision. Experience in deep learning is appreciated, as well as proficient programming skills in Python.

Formation et compétences requises :
–

Adresse d’emploi :
Université de Rouen Normadie

Categories: theses

Wed

Assistance logicielle à l’exploration de l’espace des enquêtes qualitatives : Étude de cas en sociologie

May 10 – May 11 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIST3N – UTT
Durée : 3 ans
Contact : joris.falip@utt.fr
Date limite de publication : 2023-05-10

Contexte :
Les sciences sociales ont souvent recours à l’analyse de transcriptions d’entretiens. L’outil numérique Cassandre, développé par l’Université de Liège en collaboration avec l’UTT, permet de guider l’utilisateur à travers les étapes de cette analyse. Le projet n-quiry a pour but d’explorer l’apport de techniques d’intelligence artificielle, de lexicométrie ou de visualisation afin de détecter dans les données des tendances et signaux faibles pouvant aiguiller l’analyse du corpus d’entretiens.

Sujet :
OBJECTIFS SCIENTIFIQUES

Plusieurs produits de la recherche sont attendus, notamment :

assistance à la conduite de l’enquête : faciliter l’identification des pistes à explorer ou à délaisser selon le corpus actuel, mais aussi permettre de déceler la saturation théorique afin de suggérer la clôture de l’enquête ;
assistance à la lecture et l’analyse des entretiens : détection de tendances et signaux faibles grâce à la lexicométrie et sa visualisation directement au sein du texte ;
assistance à l’articulation de cas et la théorisation : exploration à partir de règles établies ou émergentes, par le biais de différentes visualisations augmentées (graphes, matrices…). Les travaux conduits dans le cadre de ce sujet auront pour objectif de proposer des solutions qui, tout en assistant le processus d’analyse qualitative, conservent l’humain au centre de la boucle de traitement et d’interprétation des données. Cela implique l’élaboration ou la sélection d’algorithmes de machine learning (pour l’analyse statistique du texte) et de visualisation appropriés facilitant l’exploration des données par l’utilisateur. Le choix de ces éléments et leur intégration dans Cassandre (ou Hyperglosae) devra s’articuler avec les règles usuelles prescrites par la méthode qualitative.

ENVIRONNEMENT DE TRAVAIL

L’équipe de recherche Tech-CICO est un environnement interdisciplinaire stimulant regroupant des chercheurs en informatique, linguistique, psychologie, sociologie et gestion. Les séminaires mensuels ainsi que les séminaires de fin d’année permettent aux doctorant•e•s de se tenir informé•e•s des dernières recherches menées dans l’équipe comme hors de l’équipe, mais aussi de présenter leurs travaux dans un contexte tout aussi exigeant que bienveillant.

PARTENARIAT

Le projet doctoral bénéficiera du partenariat étroit existant avec Christophe Lejeune de l’Université de Liège, partenariat à l’œuvre depuis des années notamment autour de la conception du logiciel Cassandre. En tant qu’auteur d’un manuel qui fait référence sur la question et expert scientifique, Christophe Lejeune accompagne des centaines de praticiens par an dans leur usage de Cassandre. Dans le cadre du projet doctoral, ces praticiens de la recherche qualitative (chercheurs confirmés ou apprenants) pourront être contactés pour être observés, interviewés ou pour participer à des expérimentations.

Ce projet de thèse s’inscrit au sein du réseau Hypertopic/Hyperglosae, animé par l’un des encadrants de la thèse. Ce réseau, au travers de ses séminaires et ses plateformes open source, étudie l’assistance logicielle à la construction du sens. Le/la candidat(e) pourra s’appuyer sur les échanges et les outils du réseau tout en y contribuant à travers ses propres recherches.

Profil du candidat :
Le/la candidat(e) devra obligatoirement :

– être titulaire d’un diplôme de niveau bac+5 en informatique, attestant de compétences en conception et réalisation de dispositifs numériques,
– avoir suivi une formation d’initiation à la recherche (état de l’art, bibliographie, citations…),
– disposer de solides compétences rédactionnelles (en français et en anglais).

Après avoir pris connaissance du sujet et des ressources référencées, les candidat•e•s, sont invité•e•s à écrire aux deux encadrants (joris.falip@utt.fr et aurelien.benel@utt.fr) en explicitant ce qui les intéresse dans ce sujet et en joignant un CV.

Formation et compétences requises :
D’autres domaines de compétence seront appréciés :

– le génie logiciel et le développement Web (backend et frontend),
– l’intelligence artificielle : machine learning et/ou approches symboliques,
– visualisation de données,
– analyse automatique de texte (text mining).

Adresse d’emploi :
Equipe Tech-CICO, Laboratoire LIST3N
Université de Technologie de Troyes

Categories: theses

PhD in

May 15 – May 16 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LITIS Lab (INSA Rouen Normandy) and University of
Durée : 4 years
Contact : paul.honeine@univ-rouen.fr
Date limite de publication : 2023-05-15

Contexte :
Cotutelle INSA Rouen Normandy and University of Tartu (Estonia)

Supervisors: Amnir Hadachi, Abdelaziz Bensrhair, Paul Honeine

Please send CV and transcripts to:
– Amnir Hadachi: hadachi@ut.ee
– Abdelaziz Bensrhair: abdelaziz.bensrhair@insa-rouen.fr
– Paul Honeine: paul.honeine@univ-rouen

Sujet :
In the last decades, we witnessed rapid artificial intelligence advancements built upon deep learning (DL). Moreover, the DL decision mechanism is so obscure that testing is the only way to verify it. Hence, the process from training to testing any model is computationally demanding. Consequently, due to their high carbon footprint, DL networks become a concern for suitability. From this perspective, green learning (GL) has been presented as a potential solution to address these concerns. Thus, the Ph.D. topic is focused on exploring the possibilities of the GL paradigm and how it can be adopted in rethinking and redesigning the models’ architectures to reduce the carbon footprint of computer vision algorithms based on Deep learning.

Profil du candidat :
The PhD candidate must be a graduate student or have a MSc or engineering degree in one of the following fields: computer science, data science, computer vision, applied mathematics or equivalent. She/he must have a strong background in machine learning and/or computer vision. Experience in deep learning is appreciated, as well as proficient programming skills in Python.

Formation et compétences requises :
–

Adresse d’emploi :
INSA Rouen Normandy and University of Tartu (Estonia)

Categories: theses

Tue

PhD position in Deep Neural Networks with Dempster Shafer Theory (Fully funded)

May 23 – May 24 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LGI2A
Durée : 3 ans
Contact : david.mercier@univ-artois.fr
Date limite de publication : 2023-05-23

Contexte :
Developing deep evidential networks in more depth by exploiting methods developed at LGI2A allowing one to consider finer knowledge about the quality, the dependence of information or the ignorance in predictions.

Candidate before May 2023

Sujet :
Deep neural networks (DNNs) refer to predictive models that exploit multiple layers of artificial neurons to compute a prediction [1,4]. In the original version, the layers are sequential and each neuron in a layer is connected with neurons in the previous layer. Many other alternative architectures have been proposed to adapt DNNs to solve specific and complex problems.

On the other hand, a theory called Dempster-Shafer theory of belief functions, or theory of evidence [15], has emerged as a rich and flexible generalization of the Bayesian probability theory, able to deal with imperfect (uncertain, imprecise, …) information. It is notably used in a growing number of applications such as classification (e.g. [2]), clustering (e.g. [3,7]) or information fusion (e.g. [5,13]).

Recent works [6,16,17] have shown the interest of enriching a DNN with an additional distance-based Dempster Shafer layer [2] for predicting belief functions. These belief functions can be of great interest to represent a reality as faithfully as possible, for example to perform a partial classification [8], i.e. decisions in favor of a group of classes.

The main idea of this thesis is to develop such deep evidential networks in more depth by exploiting methods developed at LGI2A allowing one to consider finer knowledge about the quality [12, 14] and the dependence of information [11], or the ignorance in predictions [9,10].

Two applications are envisaged: Image analysis from drones and fish population analysis.

To apply, please send the following documents grouped in one pdf file: your CV, your grades for the current and past years, a motivation letter, and at most two recommendations (optional) to sebastien.ramel@univ-artois.fr, frederic.pichon@univ-artois.fr and david.mercier@univ-artois.fr

References

[1] C. M. Bishop. Pattern recognition and machine learning, 5th Edition. Information science and statistics. Springer, 2007.
[2] T. Denoeux. A neural network classifier based on dempster-shafer theory. IEEE Transactions on Systems, Man, and Cybernetics-Part A: Systems and Humans, 30(2):131–150, 2000.
[3] T. Denœux. Calibrated model-based evidential clustering using bootstrapping. Information Science, 528:17–45, 2020.
[4] I. Goodfellow, Y. Bengio and A. Courville: Deep Learning (Adaptive Computation and Machine Learning), MIT Press, Cambridge (USA), 2016.
[5] L. Huang, T. Denoeux, P. Vera, and S. Ruan. Evidence fusion with contextual discounting for multi-modality medical image segmentation. In International Conference on Medical Image Computing and Computer-Assisted Intervention, pages 401–411. Springer, 2022.
[6] L. Huang, S. Ruan, P. Decazes, and T. Denoeux. Lymphoma segmentation from 3D PET-CT images using a deep evidential network. International Journal of Approximate Reasoning, Volume 149, pages 39-60, 2022.
[7] F. Li, S. Li, and T. Denœux. Combining clusterings in the belief function framework. Array, 6:100018, 2020.
[8] L. Ma and T. Denœux. Partial classification in the belief function framework. Knowledge-Based Systems, 214: article 106742, 2021.
[9] P. Minary, F. Pichon, D. Mercier, E. Lefèvre and B. Droit. Evidential joint calibration of binary SVM classifiers, Soft Computing, pp 4655-4671, Vol. 23, No. 13, 2019.
[10] S. Ramel, F. Pichon and F. Delmotte. A reliable version of choquistic regression based on evidence theory, Knowledge-Based Systems, KBS, pp 106252, Vol. 205, 2020.
[11] F. Pichon. Canonical decomposition of belief functions based on Teugels’ representation of the multivariate Bernoulli distribution. Information Sciences, 428:76-104, 2018.
[12] F. Pichon, D. Dubois, and T. Denœux. Relevance and truthfulness in information correction and fusion. International Journal Approximate Reasoning, 53(2):159–175, 2012.
[13] F. Pichon, D. Dubois, and T. Denoeux. Quality of information sources in information fusion. In Éloi Bossé and Galina L. Rogova, editors, Information Quality in Information Fusion and Decision Making, pages 31–49. Springer, 2019.
[14] F. Pichon, D. Mercier, E. Lefèvre, and F. Delmotte. Proposition and learning of some belief function contextual correction mechanisms. International Journal Approximate Reasoning, 72:4–42, 2016.
[15] G. Shafer. A mathematical theory of evidence, volume 42. Princeton university press, 1976.
[16] Z. Tong, P. Xu, and T. Denoeux. An evidential classifier based on dempster-shafer theory and deep learning. Neurocomputing, 450:275–293, 2021.
[17] Z. Tong, P. Xu, and T. Denœux. Fusion of evidential cnn classifiers for image classification. In International Conference on Belief Functions, pages 168–176. Springer, 2021.

Profil du candidat :
Master’s degree or equivalent in Computer Science or a related field

Formation et compétences requises :
Strong background in machine learning and deep learning

Experience with programming languages such as Python and TensorFlow / Keras

Excellent written and oral communication skills

Strong problem-solving and analytical skills

Adresse d’emploi :
LGI2A – Université d’Artois – Béthune – France – (https://www.lgi2a.univ-artois.fr).

Document attaché : 202303231217_Offre_These_2023_LGI2A_DLwithDST.pdf

Categories: theses

Fri

Fouille de séquences sémantiques

May 26 – May 27 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIFAT
Durée : 3 ans
Contact : thomas.devogele@univ-tours.fr
Date limite de publication : 2023-05-26

Contexte :
Les séquences ou trajectoires sémantiques sont des suites de valeurs sémantiques ayant une durée et chronologiquement ordonnées. L’ensemble de ces valeurs peut être décrit à l’aide d’une ontologie. Ces séquences représentent des processus divers : trajectoires de vie, déplacements journaliers, dossiers patients et flux d’activités diverses (par ex. étapes dans la production de produits, exercices d’e-learning, requêtes dans un système d’information, chansons d’une playlist…).
L’analyse de séquences sémantiques (Parent et al. 2013) permet de répondre à diverses problématiques sociétales, industrielles ou individuelles, par exemple : la détection de comportements dangereux (ex. déplacements à risque, notamment d’enfants, suites dangereuses de prises de médicaments), la détection de difficultés et goulots d’étranglement (notamment quand il s’agit d’activités répétitives), l’apprentissage de patrons de comportement (pour ensuite créer des groupes, observer des caractéristiques communes, recommander des actions, apprendre des intérêts), et la comparaison de comportement experts et novices (pour qualifier, recommander et proposer des plans d’amélioration).
En 2021, Clément Moreau (Moreau 2021) a soutenu sa thèse sur la fouille de séquences de mobilité sémantique. Il a proposé des mesures pour la comparaison, l’analyse et la découverte de comportements d’humains. Ces travaux de recherche ont ouvert de nombreuses perspectives très prometteuses.

Sujet :
L’objectif de cette thèse est d’étendre ces travaux et de répondre à une partie des verrous soulevés par ces perspectives :
• Généricité : La thèse de Clément Moreau s’intéressait principalement aux séquences sémantiques représentant des déplacements humaines. Une question intéressante concerne comment étendre ces travaux à d’autres types de données, notamment pour prendre en compte des activités complexes et en présence d’incomplétudes. Un couplage avec la dimension géographique est possible.
• Mesure de similarité : Le calcul de similarité entre activités et entre séquence est un point clé pour l’analyse des séquences. Clément Moreau a proposé deux mesures, CED et FTH basées respectivement sur la distance d’édition (Wagner et Fischer 1974) et la distance de Hamming(Hamming 1950). Une étude comparative approfondie est encore à réaliser. Plus particulièrement, quelles caractéristiques sont à privilégier pour choisir et régler les paramètres de la mesure de similarité ? Comment mesurer la similarité entre des séquences incomplètes ou de durées différentes ?
• Langage d’interrogation : Ces mesures doivent pouvoir être reprises dans le cadre d’un langage d’interrogation permettant d’extraire des séquences proches d’un patron générique.
• Analyse visuelle interactive : Lors de la thèse de Clément Moreau, un outil de visualisation : SIMBA a été proposé. Cet outil est complexe, il doit être amélioré afin de proposer des résumés (patterns) plus simples des séquences d’un même cluster et ainsi favoriser l’explicabilité du processus. De même, l’analyse doit être plus interactive et mieux intégrer les préférences utilisateurs.

Profil du candidat :
fouille de données, ML, sciences des données, séries temporelles

Formation et compétences requises :
master en informatique

Adresse d’emploi :
3 place Jean Jaurès, 41000 Blois

Document attaché : 202304260715_TheseFouilleSequences2023.pdf

Categories: theses

Physics-Aware Deep Learning for Modeling Spatio-Temporal Dynamics.

May 26 – May 27 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Sorbonne Universite – Institut des Systèmes Intell
Durée : 36 mois
Contact : patrick.gallinari@sorbonne-universite.fr
Date limite de publication : 2023-05-26

Contexte :
Physics-aware deep learning is an emerging research field aiming at investigating the potential of AI methods to advance scientific research for the modeling of complex natural phenomena. This research topic investigates how to leverage prior knowledge of first principles (physics) together with the ability of machine learning at extracting information from data. This is a fast-growing field with the potential to boost scientific progress and to change the way we develop research in a whole range of scientific domains. An area where this idea raises high hopes is the modeling of complex dynamics characterizing natural phenomena occurring in domains as diverse as climate science, earth science, biology, fluid dynamics, etc.

Sujet :
The objective of the PhD project is the development of Physics-aware deep learning methods for the modeling of complex spatio-temporal dynamics. The direct application of state-of-the-art deep learning (DL) methods for modeling and solving physical dynamics occurring in nature is limited by the complexity of the underlying phenomena, the need for large amounts of data and their inability to learn physically consistent laws. This has motivated the recent exploration of physics-aware methods incorporating prior physical knowledge. Although promising and rapidly developing, this research field faces several challenges. For this PhD project we will address two main challenges, namely the construction of hybrid models for integrating physics with DL and generalization issues which condition the usability of DL for physics.

— Integrating DL and physics for spatio-temporal dynamics forecasting and solving PDEs

In physics and many related fields, partial differential equations (PDEs) are the main tool for modeling and characterizing the dynamics underlying complex phenomena. Combining PDE models with ML is a natural idea when building physics-aware DL models and it is one of the key challenges in the field. This has been explored for two main directions: (i) augmenting low resolution solvers with ML in order to reach the accuracy of high-fidelity models at a reduced computational cost, and (ii) complementing incomplete physical models with ML by integrating observation data through machine learning. A first direction of the PhD will then be to investigate hybrid physics-DL models using the recently proposed framework of neural operators. The latter opens the possibility of combining and learning multiple spatio-temporal scales within a unified formalism, a challenge in DL.

— Domain generalization for deep learning based dynamical models

Explicit physical models come with guarantees and can be used in any context (also called domain or environment) where the model is valid. These models reflect explicit causality relations between the different variables involved in the model. This is not the case for DL: statistical models learn correlations from sample observations, their validity is usually limited to the context of the training domain. This is a critical issue for the adoption of ML for modeling the physical world. In relation with the construction of hybrid models as described above, one will investigate this issue along two main directions. The first one is a purely data-based approach and exploits ideas from learning from multiple environments through task decomposition. The second one, takes a dual perspective, relying on prior physical knowledge of the system equations and directly targets the problem of solving parametric PDEs, exploiting ideas from meta-learning.

Profil du candidat :
Computer science or applied mathematics. Good programming skills.

Formation et compétences requises :
Master degree in computer science or applied mathematics, Engineering school. Background and experience in machine learning.

Adresse d’emploi :
Sorbonne Université (S.U.), Pierre et Marie Campus in the center of Paris. The candidate will integrate the MLIA team (Machine Learning and Deep Learning for Information Access) at ISIR (Institut des Systèmes Intelligents et de Robotique).

Document attaché : 202304251022_2023-04-PhD-Description-Physics-Aware-Deep-Learning.pdf

Categories: theses

Sat

Partage et analyse de données multi-points de vues pour la préservation du patrimoine culturel

May 27 – May 28 all-day

Offre en lien avec l’Action/le Réseau : – — –/Doctorants

Laboratoire/Entreprise : LIAS, équipe IDDM, ISAE-ENSMA , Poitiers, Futurosc
Durée : 3 ans
Contact : baron@ensma.fr
Date limite de publication : 2023-05-27

Contexte :
Cette thèse se déroule dans le contexte du projet ANR Digitalis : https://digitalis.humanities.science/

Sujet :
L’objectif est de proposer une représentation numérique intégrée et des outils qui accompagneront la recherche archéologique. Ils faciliteront l’efficacité de la collecte et de la numérisation de données. Il devra permettre des raisonnements sur des objets du patrimoine en s’appuyant à la fois sur la collecte de données et sur la visualisation 3D de ces objets. La connaissance sera structurée via un modèle de connaissances qui facilitera le partage en s’appuyant sur des standards existants. Des techniques liées à l’apprentissage automatique pourront être utilisées pour inférer de nouveaux faits historiques.

Profil du candidat :
Le candidat doit détenir un diplôme de Master en Informatique ou un diplôme d’ingénieur spécialité Informatique.

Formation et compétences requises :
Une bonne connaissance de la programmation (Java, JavaScript et Python), des bibliothèques/frameworks (frameworks web, bibliothèque d’apprentissage automatique) et des solutions de stockage (stockage RDF et SGBDR) est requise. Un bon niveau en français et en anglais est fondamental. Une motivation pour le domaine historique est fortement recommandée.

Adresse d’emploi :
Poitiers, Futuroscope

Document attaché : 202305150802_Digitalis_thesis_2023_fr.pdf

Categories: theses

Tue

Can we imagine a decision-making system as a support for access to law? Illustration around the European regulation on AI

May 30 – May 31 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LAMSADE/ Cr2D (Dauphine)
Durée : 3 ans
Contact : elsa.negre@dauphine.fr
Date limite de publication : 2023-05-30

Contexte :
https://euraxess.ec.europa.eu/jobs/67041

Sujet :
https://euraxess.ec.europa.eu/jobs/67041

Profil du candidat :
https://euraxess.ec.europa.eu/jobs/67041

Formation et compétences requises :
https://euraxess.ec.europa.eu/jobs/67041

Adresse d’emploi :
Université Paris-Dauphine

Categories: theses

PhD (CIFRE contract) at IRISA/Atermes on Object detection from few multispectral examples

May 30 – May 31 all-day

Offre en lien avec l’Action/le Réseau : – — –/Doctorants

Laboratoire/Entreprise : IRISA/ATERMES
Durée : 3 years
Contact : minh-tan.pham@irisa.fr
Date limite de publication : 2023-05-30

Contexte :
ATERMES is an international mid-sized company, based in Montigny-le-Bretonneux with a strong expertise in high technology and system integration from the upstream design to the long-life maintenance cycle. It specializes in offering system solution for border surveillance. Its flagship product BARIER™ (“Beacon Autonomous Reconnaissance Identification and Evaluation Response”) provides ready application for temporary strategic site protection or ill-defined border regions in mountainous or remote terrain where fixed surveillance modes are impracticable or overly expensive to deploy. As another exemple, SURICATE is the first of its class optronic ground “RADAR” that covers very efficiently wide field with automatic classification of intruders thanks to multi-spectral deep learning detection.

The collaboration between ATERMES and IRISA was initiated through a first PhD thesis (Heng Zhang, defended December 2021, https://www.theses.fr/2021REN1S099/document). This successful collaboration led to multiple contributions on object detection in both mono-modal (RGB) and multi-modal (RGB+THERMAL) scenarios. Besides, this study allowed to identify remaining challenges that need to be solved to ensure multispectral object detection in the wild.

Sujet :
The project aims at providing deep learning-based methods to detect objects in outdoor environments using multispectral data in a low supervision context, e.g., learning from few examples to detect scarcely-observed objects. The data consist of RGB and IR (Infra-red) images which are frames from calibrated and aligned multispectral videos.
Few-shot learning [1][2], active learning [3] and incremental/continual learning [4][5] are among the frameworks to be investigated since they allow to limit the number of labeled examples needed for learning. Most developed methods [6][7][8][9] based on these approaches have been proposed to perform object detection from RGB images within different weakly-supervised scenarios. They should be adapted and improved to deal with scarce object detection from multispectral images.In case of lacking objects of interest during the training, anomaly detection approaches [10][11] can be also considered to detect new object classes which will be further characterized by prior semantic concepts.
In addition to the (private) data from ATERMES, the PhD candidate will be able to work with public benchmarks such as KAIST, FLIR, VEDAI or MIL to benchmark the developed frameworks in the vision and machine learning communities.

Profil du candidat :
MSc or Engineering degree with excellent academic track and proven research experience in the following fields: computer science, applied maths, signal processing and computer vision;

Formation et compétences requises :
Experience with machine learning, in particular deep learning;

Skills and proved experience in programming (Python and frameworks such as Pytorch/Tensorflow will be appreciated);

Good communication skills (spoken/written English) is required ;

Adresse d’emploi :
The PhD candidate will work part time (80%) at IRISA (with 1 day per week in Rennes and the rest of the time in the Vannes IRISA facility) and part time (20%) in ATERMES in Paris (which corresponds to 2 days every 2 weeks). The exact schedule will be flexible: it might be preferable to spend more time in the company at the beginning of the thesis to learn about the system and understand the data and be full time in the lab while writing the PhD dissertation.

Document attaché : 202302091035_PHD_IRISA_Atermes_2023.pdf

Categories: theses

Wed

Physics-informed deep neural network for characterising galaxy morphology

May 31 – Jun 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoire LIS, Université de Toulon
Durée : 36 mois
Contact : adeline.paiement@univ-tln.fr
Date limite de publication : 2023-05-31

Contexte :
Two laboratories are involved in the supervision of this PhD: the LIS (Laboratoire d’Informatique et Systèmes) and the Strasbourg Astronomical Observatory. The PhD student will be based a t LIS in Toulon and will work in close collaboration with the Strasbourg Astronomical Observatory.

Applications are to be sent via the CNRS portal: https://emploi.cnrs.fr/Offres/Doctorant/UMR7020-ADEPAI-001/Default.aspx

Sujet :
Context
Observations and image analysis are essential for astrophysics research. Combined with numerical simulations, they are the only means to study the physics that governs astronomical objects. The visual characterisation of Galaxy Morphologies (GM) illustrates this paradigm, as they are correlated with galaxies’ physical parameters and may provide insights into the physical processes that drove their evolutionary history. In particular, the diffuse tidal stellar features that surround galaxies result from past galaxy collisions and bring a testimony on the past mass assembly of galaxies. However, recent or near-future observation missions (e.g. DES, UNIONS, Euclid, LSST, Roman, ARRAKIHS) have collected or are about to collect a rapidly increasing amount of data that can no longer be analysed manually, even via crowd sourcing. This situation can only be resolved by developing automatic image analysis techniques.

Aims & method
The goal of this project is to produce automatic visual analysis tools for finely characterising GMs. In particular, we will focus on the faint tidal debris that have been largely overlooked by previous studies, but that are essential in understanding the collisional history of galaxies. Contrary to previous studies that simplified GM characterisation through discretising GM parameters, we will perform a regression of continuous parameters of interest. This will be achieved through a segmentation of the tidal structures. Previous studies used off-the-shelf deep neural networks (DNN) which were limited in the achievable accuracy for detecting the faint and diffuse tidal structures. To overcome the challenges associated with localising
them, we will develop purpose-designed DNNs that integrate knowledge on the relationships between structures. This knowledge will constrain the learning and increase the localisation robustness. We will endeavour to making the methods applicable on a large scale to major observational missions such as CFIS, Euclid and LSST. Different missions operate at various (numbers of) imaging bands. This raises strong challenges to the practical applicability of automated visual analysis to all available imaging bands. We will explore transfer learning options to adapt the developed methods to the data from various instruments. This project will build on a DNN that was previously designed in our lab, and that is particularly sensitive to the texture and orientation of filamentary structures (Richards et al., 2022b). During the first year of the PhD, we will adapt this DNN to the detection and the segmentation of galactic structures, with a focus on low surface brightness tidal features. During the second year, we will further adapt the DNN’s architecture in order to account for known relationships between galactic structures. The third year will be devoted to preparing the application of the developed methods to real observational data, with the aim to release a tool for the astrophysics community.

Profil du candidat :
Ability to work across disciplines, communication, flexibility and adaptability, analytical and critical thinking, autonomy, teamwork

Formation et compétences requises :
Master level degree in data science, AI, or closely related subject, or in astrophysics with strong experience in programming. Proficient with python and scientific python libraries. An experience with deep learning and/or image processing is recommended.

Adresse d’emploi :
Laboratoire LIS, Université de Toulon, Campus de La Garde, avenue de l’Université, 83130 La Garde

Categories: theses

Searching the web with Things

May 31 – Jun 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LS2N – Nantes
Durée : 36
Contact : pascal.molli@univ-nantes.fr
Date limite de publication : 2023-05-31

Contexte :
ANR MeKaNo

Sujet :
The objective of the PhD is to search the web with Things (More details about the positions are available [1]) relying on Semantic Web technologies. Our particular interest is the scalable support for indexing and searching on the web with concepts.

[1]https://docs.google.com/document/d/1hMp3tHupKe1WvW9zSMajY0bSua5oEp1JKNRtRY4zEP0/edit?usp=sharing

Profil du candidat :
Applicants for a PhD position must have a Master’s degree in computer science or a closely related field.

Formation et compétences requises :
Applicants must also have a strong background in data and knowledge engineering, graph data management and querying. Additional knowledge and experiences in the following areas are highly appreciated: data integration (data lakes, fabrics), provenance, machine learning, dynamic knowledge graphs, and data science. Outstanding spoken and written communication skills in English are essential.

Adresse d’emploi :
LS2N
Université de Nantes – faculté des Sciences et Techniques (FST)
Bâtiment 34
2 Chemin de la Houssinière
BP 92208, 44322 Nantes Cedex 3

Document attaché : 202303071700_Searching the web with Things – Master thesis 2022.pdf

Categories: theses

Jun

Sun

Gestion dynamique et sécurisée des données de l’énergie sur une architecture FOG à l’aide de graphes de connaissances

Jun 4 – Jun 5 all-day

Offre en lien avec l’Action/le Réseau : RoCED/– — –

Laboratoire/Entreprise : IRIT
Durée : 36 mois
Contact : hernande@irit.fr
Date limite de publication : 2023-06-04

Contexte :

France has set up a program called PEPR (Priority Research Programs and Equipment) in order to build or strengthen French leadership in scientific fields linked or likely to be linked to technological, economic, societal, health or environmental transformation and which are considered as priorities at national or European level.
In this context the program TASE – Advanced Technologies for Energetics Systems will fund
the four years collaborative project AI-NRGY – Distributed AI-based architecture of future energy systems integrating very large amounts of distributed sources. AI-NRGY aims to propose a software architecture as well as the methods, models and algorithms required to implement smart distributed solutions likely to accelerate the digitization of energy networks. Due to their highly distributed, dynamic, heterogeneous and sometimes volatile nature, as well as their status as critical infrastructure, multi-energy networks will not be able to rely on one or the other of the two data processing paradigms which have presided over their control until today: local calculation and centralized calculation. The aim of this project is therefore to contribute to the implementation of distributed intelligence solutions. The data is used for different services such as prediction of energy usage, control of local consumption, etc.
The aim is to take advantage of the different distributed computing (at the edge, on the fog and at the cloud layer) in order to respond to major constraints of future electrical networks.
To achieve this, in this PhD, we will work on providing an adaptive distributed policy in terms of access and localization of data to satisfy performance, privacy or even characteristics of support equipment, in particular to distributed AI algorithms.

Sujet :
The development of systems requiring the implementation of artificial intelligence closer to users or to data is a trend in many systems for the future. This is the case in this project around smart-grids but the problem is the same for example in smart-cities or in intelligent vehicles.
Three aspects must be considered:
– The generation of data is done with sensors, actuators or by direct interactions with users. In these systems the amount of data is massive, highly distributed, dynamic and potentially intermittent.
– The use of data is also dynamic in terms of purpose, location and access authorizations, for example.
– The viability of these complex systems implies satisfying a set of constraints (quantity of data located in one place for memory problems) and being able to provide a predefined quality of service, for example to guarantee a response time.
In this thesis, we propose to deal with all of this problem by relying on semantic models and rules to describe the data and their relationships but also to make decisions on locations, duplication, transmission of data in an edge type architecture computing. This architecture will be built on the oneM2M standard and may eventually make it possible to propose extensions in the standardization committees. Real deployment of oneM2M architecture will deploy and test semantic models and rules approaches in a real architecture.
The objective is to propose an innovative approach based on knowledge graphs representing the manipulated data as well as the systems collecting and processing them but also the uses made of these data. Knowledge graphs are known to help managing the heterogeneity and diversity of the entities involved (Tomašević et al 2015, Lork et al, 2019). Building on existing work (Lygerakis et
al., 2022) (Li et al., 2022), in particular that proposed by IRIT (Seydoux et al., 2020), an approach based on distributed reasoning will have to be put in place to deploy optimized data management as close as possible to the data being manipulated.

Profil du candidat :
The candidate must have completed a master’s degree in artificial intelligence. Knowledge in Internet of Things and distributed architectures will be a plus.

Formation et compétences requises :
The candidate should have a very good level of programming and research experience.

Adresse d’emploi :
118 Route de Narbonne, 31062 TOULOUSE

Document attaché : 202304040910_AI_NRGY_data_semantic_PhD.pdf

Categories: theses

Jun

Mon

Generation of graphical structures through deep reinforcement learning: application to molecular chemistry

Jun 12 – Jun 13 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LERIA – Université d’Angers
Durée : 3 years
Contact : nicolas.gutowski@univ-angers.fr
Date limite de publication : 2023-06-12

Contexte :
In many areas of chemistry, the discovery of new molecules often involves building upon an existing effective compound through chemical reactions (addition, substitution, etc.) to enhance its properties. The emergence of truly new molecules is a rarer phenomenon but can pave the way for intensification and profound transformations in the field. It is precisely with this goal in mind that research on de novo generation of molecules with desired properties has been developed, particularly for drug and material discovery. Challenges in this research domain include the size of the search space and the difficulty of generating molecules that can be synthesized.

Molecules can be represented as graphs, where the vertices are labeled according to atom types and the edges represent bond types. This is a problem of generating graph structures, where the objective is the combination of one or more functions to optimize and constraints to satisfy. To address our application in chemistry, we have recently proposed an evolutionary algorithm for molecule generation called EvoMol [1], which can freely explore the chemical space and tackle diverse problems. This generator has achieved benchmark results in multi-property optimization and applied problems. It is capable of incorporating synthesizability constraints [2] and promoting diversity in the generated molecules [3]. However, significant challenges still need to be addressed, and two of these challenges are at the core of the proposed topic.

The first area of improvement is the selection of actions on the graph, which is currently random in EvoMol. One would expect an intelligent method to apply a policy for choosing actions that have been successful in the past, similar to a chemist adding a known chemical function to enhance a target property. Preliminary work by N. Gutowski and B. Da Mota has shown the potential of reinforcement learning using bandit algorithms and Q-Learning for certain problems, highlighting the need for further methods. The second area of improvement relates to synthesizability, which is a crucial objective for real-world applications. We have proposed synthesizability constraints [2] that make the generated molecules likely to be synthesizable. Other works propose heuristic scores [4,5], sometimes based on retrosynthesis [6]. A method capable of constructing a molecule with the desired properties, along with the steps for its synthesis, would have many advantages. Although some work has emerged in this field [7], they are limited to simple problems.

Artificial learning involving graphs is a promising theme with numerous applications that has benefited from major advances in deep learning, such as Graph Neural Networks (GNN [8]), Graph Convolutional Networks (GCN [9]), and more recently, Graph Transformer Networks (GTN [10]). These approaches have been quickly adapted and applied to various applications, including molecular generation [11,12]. However, these powerful architectures have been relatively less explored in the context of constrained exploration and diverse optimization objectives, such as those of interest in our project (e.g., organic solar cells). For these complex objectives of sequentially constructing useful and realistic molecules, reinforcement learning appears to be a promising alternative to the meta-heuristics and latent space manipulation approaches [13] (such as variational autoencoders for molecules [14]) that have been employed thus far. The latter approaches face well-known challenges of posterior collapse and are limited to optimizing simple (i.e., differentiable) properties. While reinforcement learning is primarily used in the domain of games and robotics to learn optimal sequences of actions, its application for controlled generation of complex data has recently shown diverse promising developments, particularly in the field of natural language generation [15,16]. In protein chemistry, it has achieved widespread success through tools like AlphaFold [17]. However, although there are some works on molecular optimization problems [11,18,19], the issue of synthesizability is almost always minimized or neglected, leaving this task to retrosynthesis tools. However, even if such methods were used on molecules generated by current generative models, there is no guarantee that the necessary reagents to produce these molecules themselves can be obtained. This top-down method, performed a posteriori, is computationally expensive and weak. It does not allow setting objectives for the construction cost of the structure or other criteria that would help narrow down the search space. In chemistry, for example, one might want to minimize synthesis costs, the number of steps, minimize hazardous or difficult-to-recycle waste, etc. The joint integration of the bottom-up graph construction process and the optimization of these properties would be an elegant, effective, and original approach.

The application of deep reinforcement learning techniques for the discovery of molecules that are both stable, synthesizable, and exhibit properties of interest in the target domains is not without various scientific challenges that need to be overcome, based on the expertise of the supervising team in sequential learning: the input objects for policies are graphs, the actions are non-trivial in the case of reaction patterns, and the underlying problem is a multi-objective optimization problem. However, this type of application lends itself well to transfer or progressive learning (curriculum learning [20]), with the possibility of learning a policy on a simpler problem such as constraint optimization or synthesizability heuristics, and then improving this policy to optimize more complex objectives that include these synthesizability issues.

Beyond the intended application, the development of reinforcement learning (RL) techniques for policies conditioned on objective graphs, as suggested by the synthesis of molecules using available reactions, is an important theme for the Machine Learning community. While multi-task RL, specifically goal-conditioned RL, is expanding in the literature of the field, very few approaches deal with complex graph structures. In this context, the search for invariants in the manipulated structures will be a key lever for establishing effective policies. Additionally, automatic curriculum learning, which has seen numerous recent developments [20,21,22,23] by dynamically determining task specification distributions adapted to the current level of the learning agent, has not yet been deployed to our knowledge in environments with known dynamics, as in the case of our application. The exploitation and adaptation of Monte Carlo Tree Search (MCTS) planning algorithms for this framework seems to be a particularly promising research direction that we intend to develop in this thesis.

Références
[1] J. Leguy, T. Cauchy, M. Glavatskikh, B. Duval, et B. Da Mota. EvoMol: a flexible and interpretable evolutionary algorithm for unbiased de novo molecular generation. Journal of Cheminformatics, 2020.
[2] T. Cauchy, J. Leguy et B. Da Mota. Definition and exploration of realistic chemical spaces using the connectivity and cyclic features of ChEMBL and ZINC. Digital Discovery, Royal Society of Chemistry, under review.
[3] J. Leguy, M. Glavatskikh, T. Cauchy, et B. Da Mota. Scalable Estimator of the Diversity for De Novo Molecular Generation Resulting in a More Robust QM Dataset (OD9) and a More Efficient Molecular Optimization. Journal of Cheminformatics, 2021.
[4] Voršilák et al. SYBA: Bayesian estimation of synthetic accessibility of organic compounds. Journal of Cheminformatics, 2020.
[5] Bühlmann et al. ChEMBL-Likeness Score and Database GDBChEMBL. Frontiers in Chemistry, 2020.
[6] Thakkar et al. Retrosynthetic accessibility score (RAscore) – rapid machine learned synthesizability classification from AI driven retrosynthetic planning. Chemical Science, 2021.
[7] Bradshaw et al. Generating Molecules via Chemical Reactions. Workshop DeepGenStruct, ICLR 2019.
[8] Scarselli et al. The Graph Neural Network Model. IEEE Transactions on Neural Networks, 2009.
[9] Kipf et al. Semi-Supervised Classification with Graph Convolutional Networks. 5th International Conference on Learning Representations (ICLR), 2017.
[10] Yun et al. Graph Transformer Networks. Advances in Neural Information Processing Systems, NeurIPS, 2019.
[11] J. Leguy, T. Cauchy, B. Duval, et B. Da Mota. Goal-directed generation of new molecules by AI methods. Chapter of Computational and Data-Driven Chemistry Using Artificial Intelligence, Elsevier, 2022.
[12] Thölke et al. TorchMD-NET: Equivariant Transformers for Neural Network based Molecular Potentials. arXiv preprint arXiv:2202.02541, 2022.
[13] Zhang et al. Comparative Study of Deep Generative Models on Chemical Space Coverage. Journal of Chemical Information and Modeling, 2021.
[14] Liu et al. Constrained Graph Variational Autoencoders for Molecule Design. Advances in Neural Information Processing Systems, 2019.
[15] S. Lamprier, T. Scialom, A. Chaffin, V. Claveau, E. Kijak, J. Staiano, B. Piwowarski. Generative Cooperative Networks for Natural Language Generation. ICML, 2022
[16] T. Scialom, S. Lamprier, B. Piwowarski, J. Staiano. Answers Unite! Unsupervised Metrics for Reinforced Summarization Models. EMNLP/IJCNLP, 2019.
[17] Jumper et al. Highly accurate protein structure prediction with AlphaFold. Nature, 2021
[18] Khemchandani et al. DeepGraphMolGen, a multi-objective, computational strategy for generating molecules with desirable properties: a graph convolution and reinforcement learning approach. Journal of Cheminformatics, 2020.
[19] Zhou et al. Optimization of Molecules via Deep Reinforcement Learning. Scientific Reports, Nature, 2019.
[20] N. Castanet, S. Lamprier, O. Sigaud. Stein Variational Goal Generation For Reinforcement Learning in Hard Exploration Problems. CoRR 2022
[21] Andrychowicz et al. Hindsight Experience Replay. arXiv preprint arXiv:1707.01495, 2017.
[22] Florensa et al. Automatic goal generation for reinforcement learning agents. International conference on machine learning, PMLR, 2018.
[23] P-A Kamienny, J. Tarbouriech, S. Lamprier, A. Lazaric, L. Denoyer: Direct then Diffuse: Incremental Unsupervised Skill Discovery for State Covering and Goal Reaching. ICLR 2022

Sujet :
The first objective of the thesis will be to propose and implement reinforcement learning methods adapted to the problem, and then conduct a methodological study on toy problems, domain benchmarks, and realistic applications proposed by our chemistry partner. Learning a policy for generating molecules can be studied within the framework of classical reinforcement algorithms. Since the inputs to the policies are molecular graphs, it will be possible to use the descriptors proposed in our previous work or neural networks (Graph Neural Networks) from recent research that need to be adapted to the characteristics of molecular graphs.

The second objective of the thesis will be to transform a list of known reactions into actions applicable to molecular graphs, and then learn to sequence these chemical reactions to synthesize a target molecule (i.e., goal-conditioned RL, in the perspective of innovative conditioned bottom-up generation, rather than the usual top-down approaches involving complex and non-generalizable retrosynthesis calculations). It will also be possible to derive a fine-grained estimator of synthesizability. This objective will be the main focus of the research effort in machine learning, with valuable contributions to the statistical learning community (e.g., adaptation of planning approaches to the automatic curriculum framework).

The third and final objective will be to apply the sequencing of chemical reactions within the algorithms and developments proposed in the first part of the thesis, and then study the use of these actions in terms of performance and synthesizability criteria. The secondary benefit of this method is the possibility of not only proposing an optimized target but also justifying our proposal through the sequence of reactions that led to its elaboration.

Profil du candidat :
– H/F
– Master 2 ou école d’ingénieur

Formation et compétences requises :
– Bac+5
– Apprentissage par renforcement
– Deep Learning / Machine Learning
– Python

Adresse d’emploi :
UFR Sciences, 2 Bd de Lavoisier, 49000 Angers

Categories: theses

Jumeaux Numériques et Réseaux de Neurones appliqués au diagnostic de Systèmes Industriels

Jun 12 – Jun 13 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : CReSTIC – Université de Reims Champagne-Ardenne
Durée : 3 ans
Contact : bart.lamiroy@univ-reims.fr
Date limite de publication : 2023-06-12

Contexte :
Le contexte de cette thèse est le diagnostic des systèmes industriels. Elle contribuera à rendre ces systèmes plus flexibles et résilients par contribution à l’état de l’art du diagnostic et par l’intégration de l’apprentissage automatique. Cette intégration doit d’une part permettre de diagnostiquer des systèmes plus complexes avec moins de ressources de calcul, tout en permettant aux opérateurs humains de valider les diagnostics et d’engager des démarches correctives par une explicabilité suffisante des résultats produits par les outils de diagnostic et d’isolation.
Le travail se placera initialement dans le cadre de systèmes qui possèdent des capteurs et des actionneurs délivrant des signaux binaires (Systèmes à Evènements Discrets – SED) et commandés par des automates programmables industriels. Il pourra être envisagé que le l’étude s’élargisse par la suite à des systèmes hybrides incluant capteurs et actionneurs continus.

Sujet :
Dans cette thèse nous aborderons le diagnostic à travers des approches d’analyse automatique des données opérationnels sans modèle explicite, mais en mettant en œuvre des approches d’apprentissage automatique (notamment les réseaux de neurones) pour détecter et isoler les fautes.
La thèse poursuivra les deux objectifs suivants :
1. Extension des résultats préliminaires de diagnostic présentés dans (Saddem et al., 2022(a,b)) et de pouvoir dimensionner la taille des réseaux de neurones et ses hyper-paramètres en fonction du système surveillé.
2. Faire en sorte que les approches développées dépassent le stade de classifieur ou prédicteur en boite noire, et qu’elles puissent fournir un niveau d’explicabilité utile à un opérateur humain ; soit par formalisation des démarches de vérification (Fawzi et al. 2022) ou autres, soit par l’analyse des réseaux entrainés (Rojat et al. (2022).
L’ensemble de ce travail s’appuiera sur la plateforme Cellflex4.0 de l’Université Reims Champagne-Ardenne (https://crestic.univ-reims.fr/fr/plateformes/cellflex-4-0) et les Jumeaux Numériques associés pour la partie acquisition de données et validation expérimentale. Il bénéficiera également des capacités de calcul de la plateforme HPC Romeo.
L’accompagnement du/de la doctorant.e, assurée par les encadrants lui permettra de prioriser et de choisir les orientations scientifiques pour atteindre les objectifs précités. Les encadrants de thèse feront en sorte qu’elle.il acquière une méthodologie scientifique rigoureuse et pertinente.
Le déroulé de la thèse pourra s’envisager comme suit :
Etape 1 : Appropriation du sujet et développements de pistes scientifiques par l’établissement d’un état de l’art et la réalisation d’une étude bibliographique sur le diagnostic de systèmes industriels d’une part et une étude bibliographique sur les techniques d’apprentissage automatique focalisées sur le diagnostic d’autre part.
Etape 2 : Collecte et préparation des données nécessaires aux approches d’apprentissage identifiées à l’étape précédente. Il s’agit notamment de spécifier les données disponibles ainsi que les techniques qui doivent être utilisées pour leur collecte et ensuite les préparer pour les méthodes de diagnostic en ligne choisies.
Etape 3 : Développement et implémentation d’algorithmes de diagnostic par apprentissage automatique, entraîner l’algorithme pour retourner l’état du système (normal ou défaillant et si défaillant quelle classe de fautes). Valider l’algorithme sur les jumeaux numériques et sur la plateforme Cellflex.
Etape 4 : Explication du diagnostic fourni par un réseau de neurones à travers l’identification des composants défaillants. Cette vérification pourra notamment se faire par recherche explicite dans l’espace en utilisant de l’apprentissage par renforcement profond ou par l’analyse des réseaux entrainés et des approches de XAI plus habituelles.

Profil du candidat :
Ce sujet de thèse s’adresse aux étudiant.e.s ayant un diplôme de Master II ou d’ingénieur, soit issu.e.s d’un parcours ayant donné accès à des connaissances approfondies en systèmes industriels (notamment systèmes à évènements discrets et hybrides) et avec une envie d’investir le champ de l’Intelligence Artificielle, soit des étudiant.e.s de formation informatique avec de très bons acquis théoriques et applicatifs en apprentissage automatique souhaitant les appliquer à des contextes de systèmes industriels.
Au-delà des bases scientifiques citées ci-dessus, les autres compétences principales recherchées sont la curiosité et l’envie d’apprendre, la capacité de travail en équipe, la rigueur scientifique et la capacité de formalisation du raisonnement. Une grande partie du travail étant consacrée à la validation expérimentale des modèles, des compétences solides en programmation seront également nécessaires.

Formation et compétences requises :
Master II ou d’ingénieur, soit en Automatique, soit en Informatique

Adresse d’emploi :
Reims

Categories: theses

Jun

Thu

Approches exploratoire et prédictive pour l’identification des réponses des plantes aux vagues de chaleur récurrentes

Jun 15 – Jun 16 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LORIA
Durée : 36 mois
Contact : lydia.boudjeloud-assala@univ-lorraine.fr
Date limite de publication : 2023-06-15

Contexte :
Depuis quelques années maintenant, nous observons de plus en plus des températures records pouvant se produire localement, qui affecte gravement la production agricole en quantité et en qualité.
Non seulement les périodes de hautes températures sont brutales mais leur fréquence tout au long du cycle de vie d’une plante augmente également, accentuant la notion de “stress thermiques récurrents”.
Cela engage les agronomes à trouver des moyens d’augmenter la valeur génétique des cultures pour gagner en tolérance à la chaleur. En amont de la sélection végétale proprement dite, il est nécessaire de mieux comprendre les réponses des plantes aux stress thermiques isolés et récurrents qui se produisent au cours des étapes cruciales du développement des cultures.

Chaque espèce de culture a ses propres maxima de température au-delà desquels les processus de développement et physiologiques des plantes sont inhibés par des températures plus élevées.
Le terme «réponse au stress thermique» est utilisé pour exprimer les réponses aux chocs thermiques soudains, aux longues vagues de chaleur et, plus généralement, aux expériences de réchauffement qui varient en durée et en intensité.
Le stress thermique affecte négativement la croissance et le développement et, par conséquent, la qualité et la quantité.

Le sujet de thèse rentre dans le cadre du projet ANR RICCOCHETS, dont l’objectif est d’identifier les réponses des plantes aux vagues de chaleur récurrentes, en prenant en compte les différents paramètres étudiés sur les plantes tels que le phénotypage multi-échelle des plantes, les paramètres écophysiologique, et autres paramètres.

L’objet de l’étude concerne les différentes séquences du stress thermique (isolées et récurrentes) qui affectent la production céréalière (rendement et qualité) en étudiant des ensembles de données de terrain existants et ceux issues des expériences dans des conditions contrôlées.
Il s’agit principalement de la croissance de trois graines, de colza, de blé et de sorgho, trois cultures importantes qui se différencient sur plusieurs aspects : type (oléagineux et céréales), les saisons de culture (par exemple, floraison printanière ou estivale pour le sorgho), la croissance (qui peut être déterminée pour le blé et le sorgho, et de croissance indéterminée pour le colza),…

L’objectif du projet RICOCHETS est de mieux comprendre et de prédire les effets des vagues de chaleur ponctuelles et récurrentes sur la production céréalière en tenant compte à la fois de la quantité et de la qualité.

Les données à disposition ont été obtenues sur trois cultures différentes (sorgho, colza et blé), en identifiant des séquences de stress thermique (intensité, durée et position pendant les phases de reproduction) qui ont un impact sur la production végétale affectant soit le nombre de grains, la taille des grains ou les deux, avec ou sans affecter la composition biochimique des grains. En comparant les effets d’un stress thermique isolé avec ceux de séquences récurrentes de stress thermique.

Des études récentes ont mis en évidence que la réponse finale de la plante à une séquence d’événements stressants récurrents ne correspond pas à la somme des réponses individuelles à chaque événement.

Il s’agit donc dans un premier temps d’explorer les données et d’utiliser des approches non supervisée (clustering, bi-clsutering afin d’identifier l’impact du stress thermique (la chaleur) sur les paramètres de croissance et de production de la plante.
Dans un second temps de combiner les approches sélectionnées, avec les approches de découverte de relations causales.

Une relation causale décrit la relation entre deux variables, où une variable nommée traitement a un effet sur une variable nommée résultat. Les relations causales sont intéressantes dans de nombreux domaines, comme par exemple en santé pour déterminer si un médicament traite ou non une maladie, ou en politiques publiques pour comprendre si une nouvelle loi a eu un impact attendu ou non.
Lorsque des données observationnelles sont disponibles, comme dans notre cas ici avec les trois graines, l’utilisation du cadre d’étude et des résultats des bi-clusters potentiels permettra d’identifier l’impact d’un paramètre (ou plusieurs) sur la résistance au stress thermique d’une plante.

Il existe différents cadres pour étudier le problème de la découverte de relations causales à partir de données d’observation tabulaires, tels que le modèle causal structurel ou le cadre des résultats potentiels.
d’autres approches ont également été explorés dans le cadre de la gestion du réseau électrique qui pourraient être utilisés dans le cadre de ce stage .

Dans un second temps, une fois le comportement expliqué, il est demandé de proposer un modèle de prédiction afin de prévoir le comportement des plantes face aux vagues de chaleurs pour mieux appréhender ses phases. les données (entrées et sorties) pour cette partie seront issues de l’étape précédente. L’aspect temporel des données est également à prendre en compte.

Sujet :
1- Etude bibliographique sur les approches de clustering, bi-Clustering, relations causales, les données temporelles et les données biologiques des plantes.
2- Une approche exploratoire de découverte des connaissances pour identifier les séquences de stress thermique isolées et récurrentes et leurs impacts sur la production céréalière est à développer. Des algorithmes automatiques de clustering ou de bi-clustering des environnements en fonction des séquences de stress thermiques tout au long du cycle de culture seront développés pour identifier les séquences de stress thermiques ponctuels et récurrents et analyser leurs effets respectifs sur la production végétale. L’aspect explicatif sera proposé avec des approches de relations causales.
3- Développement d’une approche prédictive des réponses au stress thermique, selon les descriptions des caractéristiques des plantes découvertes en phase deux.

Profil du candidat :
Master 2 en informatique, avec des compétences en machine learning et data science.
Des compétences en biologie seraient un plus.

Formation et compétences requises :
Compétences en machine learning et data science.
Des compétences en biologie seraient un plus.

Adresse d’emploi :
Miguel Couceiro (Pr, LORIA Nancy) : miguel.couceiro@loria.fr
Lydia Boudjeloud-Assala (MCF-HDR, LORIA Metz) : lydia.boudjeloud@loria.fr

Document attaché : 202303301158_Sujet-TheseRiccochets.pdf

Categories: theses

Explainable and Multi-Modal DL/ML Models for Extreme Narrative Detection in the Online Social Discourse.

Jun 15 – Jun 16 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : ETIS (equipe REMI) / AGORA
Durée : 3 ans
Contact : michele.linardi@cyu.fr
Date limite de publication : 2023-06-15

Contexte :
Increased polarization triggered by social protest movements, the Covid-19 crisis and the war in Ukraine are historical events that have recently favored extremist narratives in public and online debates.
Extremist (a.k.a Extreme) narratives (EN) constitute counter-narratives in the sense that they challenge mainstream worldviews and social interpretations of major events in many kinds of public debate e.g., social media, parliamentary interventions, journals, books, and many others. This thesis offer is integrated in the context of the Horizon Europe ARENAS project (Grant agreement ID: 101094731), coordinated by CY Cergy Paris Université, and aims to contribute to Work Package 2 dedicated to the definition, identification and detection of extremist narratives. (https://cordis.europa.eu/project/id/101094731).

Sujet :
In this Ph.D. thesis, we want to study the EN characterization, modeling and automatic detection. Specifically, we note that the extremist narratives analysis should not only be seen from a radicalization/terrorism viewpoint, for which a rich Machine Learning (ML) literature already proposes multiple solutions. We observe that EN must be studied in a more general context that concerns different kind of values such as people democracy, citizenship, rights, etc., which do not necessarily assume a violent or hatred sentiments.
EN modeling cannot be only isolated to violent and extreme language features, but it must also consider a wider spectrum of narrative elements such as the beliefs, traits, practices of a collectivity, etc. that identifies a group of people sharing the same identity.

The principal thesis objective is to propose new (DL/ML) tools that characterize extremist narratives in corpora from different contexts (social media, political debates, transcripts, etc.).
We argue that EN modeling choice is not only restricted to text but must effectively consider other types of data, i.e., Graphs, Images, and Knowledge Base. In this case, we want to focus on multi-modal knowledge extraction, which is a challenging topic in Machine Learning.
The existing multi-view machine learning approaches usually are not adapted for multi-modal data or use the same similarity/distance measure for all the views.
A crucial objective of our research is to propose novel multi-modal knowledge extraction methods to detect extremism narratives and characterize them.

The successful candidate will work in close collaboration with language experts (from Heinrich Heine University of Düsseldorf and from Institute of Contemporary History-Ljubjana University) that will provide linguistic expertise and validation, along with labelled corpora from heterogeneous online (multi-modal) content. Interactions will be made with work already in progress at Cergy on forensic linguistics, the analysis of fake news, and digital discourse in a political context.

Profil du candidat :
Applicants should contact via email Michele Linardi (michele.linardi@cyu.fr), Julien Longhi (julien.longhi@cyu.fr) and Nistor Grozavu (nistor.grozavu@cyu.fr) with:

• A full curriculum vitae, including a summary of previous research experience.
• A transcript of higher education records.
• A one-page research statement discussing how the candidate’s background fits the proposed topic.
• Two support letters of persons that have worked with them.

The deadline of the application is: June 4th, 2023 (11h59 pm AoE).

Formation et compétences requises :
The candidate must fit the following requirements:

– Master’s degree in computer science or data science.
– Advanced programming skills in Python (C++/Java is a plus).
– Strong mathematical background, including Linear Algebra and Statistics.
– Research experience in Machine learning, Deep Learning and Data Mining.
– Fluency in written and spoken English is essential.

Adresse d’emploi :
CY Cergy Paris Université
33 bd Port, 95000 Cergy

Document attaché : 202305170940_ThesisProposal_full.pdf

Categories: theses

LOD et IA pour l’intégration continue centrée utilisateur de services et données dans le contexte de l’IoT/IoMT : Application à la recommandation et réalisation de parcours personnalisés de soin de support en Oncologie