MaDICS

Decimation de graphes pour les réseaux profonds sur graphes

Oct 15 – Oct 16 all-day

Offre en lien avec l’Action/le Réseau : – — –/Doctorants

Laboratoire/Entreprise : GREYC et LITIS
Durée : 3 ans
Contact : luc.brun@unicaen.fr
Date limite de publication : 2021-10-15

Contexte :
La plupart des objets de notre vie courante sont basés sur des objets
discrets avec des relations séquentielles (chaînes de caractères) ou
plus complexes (graphes). On peut évoquer les relations entre les
personnes dans des graphes sociaux, les liens entre les atomes d’une
molécule ou la distance topographique entre les capteurs de vitesse dans
le cadre de la prédiction du trafic routier, pour n’en citer que
quelques-uns. La prédiction des propriétés de tels objets relève de la
reconnaissance structurelle de formes. Pendant des décennies, ce domaine
de recherche a été limité par des métriques coûteuses (par exemple,
basées sur l’isomorphisme de sous-graphes) ou peu efficaces,
généralement combinées à des algorithmes d’apprentissage limités
(principalement l’algorithme des $k$ plus proches voisins). Une première
percée importante a été réalisée par l’introduction de méthodes à noyaux
appliquées aux objets discrets tels que les chaînes de caractères ou les
graphes. En plus de fournir des métriques efficaces sur ces objets
discrets, ces derniers constituent une porte d’entrée vers de nombreuses
méthodes d’apprentissage automatique. Ainsi, ils réduisent l’écart entre
les techniques de reconnaissance des formes structurelles et
statistiques. Une deuxième avancée dans ce domaine a été fournie par
l’introduction des réseaux neuronaux sur graphes (GNN). Comme les noyaux
sur graphes, ces réseaux fournissent une connexion solide entre les
graphes et les techniques d’apprentissage. De plus, comme d’autres
techniques d’apprentissage profond, les GNNs évitent de concevoir
manuellement une mesure de similarité entre graphes. Les GNN reposent
sur deux opérations, à savoir la convolution et la décimation des
graphes. Cependant, ces deux opérations présentent encore de graves
inconvénients. tout d’abord, le pouvoir expressif des opérations de
convolution sur graphes est limitée dans le domaine spectral et
correspond généralement à un filtre passe-bas. Deuxièmement, l’opération
de décimation du graphe est généralement effectuée par les algorithmes
de clustering sur graphes existants, tandis que l’opération équivalente
dans les réseaux neuronaux d’image correspond à un sous-échantillonnage,
qui offre des garanties en termes de décimation et de connexité des
entités fusionnées.

Ce doctorat se concentrera sur ce dernier problème en étroite
collaboration avec d’autres partenaires qui étudient le cadre de la
convolution sur graphes.

Sujet :

Il convient tout d’abord de distinguer deux concepts : La décimation de
graphes, qui consiste à réduire la taille d’un graphe en regroupant des
ensembles de sommets connectés, et le pooling de graphes, qui consiste à
résumer un graphe connecté par une valeur numérique ou un vecteur.

La thèse sera grossièrement décomposée en trois étapes :

1. **Décimation de graphes :** Le doctorant devra d’abord étudier les
techniques de décimation de graphes développées par notre équipe
afin de les transposer à une implémentation GPU et au cadre de
l’apprentissage profond.

Ces schémas de décimation doivent assurer :

1. Un taux de décimation fixe (rapport entre les tailles de deux
graphes successifs),

2. Un rayon limité (petit) des sous-graphes regroupés en un seul
sommet par le schéma de décimation.

2. **Propriétés spectrales des graphes :** Le doctorant devra étudier
la littérature relative aux schémas de décimation préservant les
propriétés spectrales des graphes. Il devra ensuite proposer de
nouveaux algorithmes combinant les résultats de l’étape précédente
avec ces techniques, afin d’assurer la préservation des propriétés
spectrales des graphes (notion à affiner) avec un taux de décimation
fixe et des tailles bornées de sous-graphes.

3. **Apprentissage de la décimation :** Cette dernière étape est
certainement l’une des plus importantes. Les techniques existantes
qui apprennent un schéma de décimation fournissent des graphes
presque complets, éliminant ainsi la structure du graphe. Le
doctorant devra comprendre ces méthodes et les améliorer afin de
préserver les propriétés structurelles du résultat en se basant sur
les résultats précédents.

Profil du candidat :
Curieux, têtu et autonome le candidat doit avoir un diplôme de master ou
d’ingénieur en informatique ou mathématiques appliqués. Une première
expérience (cours, stage, projets) en apprentissage et deep learning
seraient appréciés. Des compétences complémentaire en théorie des
graphes ou un intérêt pour ce domaine seraient un plus.

Formation et compétences requises :
Master en Machine Learning, Deep Learning, Graphes, …

Adresse d’emploi :
Laboratoire GREYC, Campus 2, Caen.

Document attaché : 202108251314_graph_decimation_fr.pdf

Categories: theses

Offre de thèse en systèmes d’information pour les sciences du patrimoine

Oct 15 – Oct 16 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoires ETIS (UMR 8051) et MAP (UMR 3595)
Durée : 3 ans
Contact : dan.vodislav@u-cergy.fr
Date limite de publication : 2021-10-15

Contexte :
Cette thèse est financée par la Fondation des Sciences du Patrimoine (FSP), qui assure la gouvernance du LabEx Patrima et de l’EquipEx Patrimex, et qui soutient des projets de recherche collaboratifs et transdisciplinaires sur le patrimoine culturel matériel. La FSP est également coordinatrice de l’EquipEx+ ESPADON, lancé cette année, dont l’objectif est la création d’une plateforme instrumentale avancée d’étude des objets du patrimoine matériel, associée à une plateforme numérique qui assure l’interopérabilité et la gestion efficace des données produites par cette plateforme et par les études sur les objets, tout au long de leur cycle de vie.
L’un des objectifs centraux d’ESPADON est la création de l’objet patrimonial augmenté (OPA), qui associe à l’objet matériel l’ensemble des données produites lors des études sur cet objet: données descriptives, d’analyse instrumentale, de spatialisation, de transformation, etc., mais aussi des données spécifiques à divers domaines d’application: art, conservation-restauration, études historiques, médiation culturelle, etc., qui enrichissent continuellement les connaissances sur l’objet et les possibilités d’étude multi-aspects.
La création de l’OPA implique la conception de modèles de données communs et modulables, de méthodes de production, intégration, pérennisation, enrichissement, partage, consultation de données, ainsi que la réalisation de systèmes efficaces et intuitifs mettant en pratique ces méthodes.
Ces éléments contribuent à l’élaboration d’un modèle de médiation technologique dédié à la création de l’OPA, s’adressant à l’ensemble des acteurs des sciences du patrimoine.
La thèse est un premier pas dans cette direction, en s’appuyant dans l’élaboration de ces modèles et méthodes sur des travaux déjà initiés par la communauté et sur un dialogue avec les différents acteurs du projet, représentatifs de la diversité des sciences du patrimoine. En particulier, le travail de thèse s’appuiera sur un corpus incluant dès le départ 4 objets de natures différentes, pour couvrir une diversité significative d’aspects.

Sujet :
Les principaux objectifs scientifiques de la thèse sont :
● L’élaboration d’un modèle de données pour l’objet patrimonial augmenté, en utilisant une approche basée sur les ontologies autour de CIDOC-CRM et les différents modèles spécifiques déjà proposés par la communauté, en développant des approches modulaires, flexibles et adaptables à la grande diversité d’objets d’étude et de caractéristiques. Une attention particulière sera accordée à la représentation des changements et de la dynamique de la création des connaissances.
● La définition d’un protocole de production et de gestion des données utilisant ce modèle, en respectant les principes FAIR tout au long du cycle de vie des OPA.
● La conception d’un modèle et de techniques d’intégration distribuée de données de sources diverses, autour du modèle OPA, avec un accent particulier sur l’interopérabilité de sources d’informations déjà existantes dans la communauté. On s’appuiera sur des approches d’intégration de données en utilisant des ontologies.
● La conception de méthodes automatiques d’enrichissement sémantique des données, que ça soit pour l’extraction de connaissances à partir de données peu structurées ou pour la déduction de liens sémantiques, spatiaux ou temporels entre concepts.
● L’implémentation d’algorithmes efficaces pour les méthodes mentionnées, associée à l’intégration de modules logiciels déjà développés pour réaliser une première version du système d’information ESPADON, avec un accent particulier sur la consultation intuitive, accessible à diverses catégories d’utilisateurs, des connaissances sur les OPA.

Profil du candidat :
S’agissant d’un sujet de recherche dans le domaine des systèmes d’information, de la gestion de données et de connaissances, mais avec des fortes ouvertures interdisciplinaires, des candidatures sont attendues de plusieurs secteurs disciplinaires relevant de Sciences et Technologies de l’Information et de la Communication avec, si possible, des expériences dans les applications numériques à la documentation du patrimoine.
Date limite de candidature: 15 octobre 2021

Formation et compétences requises :
Diplôme donnant accès à une inscription en thèse de doctorat – Master recherche ou équivalent

Adresse d’emploi :
Région Ile de France

Document attaché : 202109211552_Mediapat.pdf

Categories: theses

SMART FOOD PRODUCTION PLANNING WITH DEMAND RESPONSE

Oct 15 – Oct 16 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : ONIRIS
Durée : 3 ans
Contact : veronique.cariou@oniris-nantes.fr
Date limite de publication : 2021-10-15

Contexte :
Face au réchauffement climatique, l’un des enjeux majeurs des processus industriels réside dans
l’optimisation de leur consommation énergétique, de manière à en limiter l’impact environnemental
et en particulier l’empreinte carbone générée. Ceci est particulièrement vrai pour l’industrie
agroalimentaire, 3e
secteur industriel le plus consommateur d’énergie. Pour répondre à un tel enjeu,
l’une des alternatives vise à substituer certains procédés fonctionnant à partir de combustibles fossiles
par des procédés, à faible empreinte carbone, faisant appel notamment à l’énergie électrique.
Parallèlement, les évolutions numériques et technologiques offrent un cadre prometteur pour une
optimisation et un réajustement dynamique de la planification industrielle par l’exploitation des
données et l’utilisation d’algorithmes de modélisation.

Sujet :
Ce projet s’inscrit dans la mise en œuvre d’une ligne de production agroalimentaire décarbonée avec
le développement d’un outil de planification des processus industriels agroalimentaires à J+1
répondant aux besoins de production en optimisant le sourcing électrique auprès des marchés
énergétiques et des systèmes de production sur site d’électricité renouvelable ensuite stockée puis
autoconsommée. Afin de prendre en compte les incertitudes inhérentes à la production d’électricité
renouvelable et au process industriel, un jumeau numérique sera mis en œuvre pour un
réajustement dynamique de la planification au jour J.

Profil du candidat :
Les profils recherchés sont de type master en science des données / mathématiques appliquées ou
diplôme d’ingénieur avec un intérêt prononcé pour les applications de planification industrielle et
d’optimisation énergétique dans le contexte agro-alimentaire.
Goût pour la recherche appliquée dans un cadre pluri-disciplinaire et collaboratif.

Formation et compétences requises :
Master en science des données / mathématiques appliquées ou
diplôme d’ingénieur.
Compétences requises :
₋ Apprentissage automatique, modélisation statistique, optimisation et recherche
opérationnelle, génie industriel, programmation (Python, R).

Adresse d’emploi :
ONIRIS
SIte de la Géraudière
44322 NANTES Cedex 3

Document attaché : 202109221546_PhDThesis_SFP2DR_french_english.pdf

Categories: theses

Oct

Apprentissage par renforcement avec des données fonctionnelles

Oct 18 – Oct 19 all-day

Offre en lien avec l’Action/le Réseau : – — –/Doctorants

Laboratoire/Entreprise : ESSILOR/Lab ERIC-Univ Lyon 2
Durée : 3 ans
Contact : jairo.cugliari@univ-lyon2.fr
Date limite de publication : 2021-10-18

Contexte :
cf pj

Sujet :
cf pj

Profil du candidat :
cf pj

Formation et compétences requises :
titulaire d’un master en statistiques ou informatique, bonnes qualités rédactionnelles en anglais et en français,

Adresse d’emploi :
Paris

Document attaché : 202108202235_projet_thèse_essilor-eric.pdf

Categories: theses

Oct

Sat

PhD position in computational statistics and machine learning

Oct 30 – Oct 31 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Telecom Paris, Institut Polytechnique de Paris
Durée : 36 mois
Contact : pavlo.mozharovskyi@telecom-paris.fr
Date limite de publication : 2021-10-30

Contexte :
3-year PhD position in statistics and machine learning is vacant at Telecom Paris – one of the leading French engineering schools, a member of Paris Polytechnic Institute. The position is within the project funded by the Starting Grant of the French National Agency for Research in category Artificial Intelligence (ANR JCJC, CE23).

Sujet :
The successful candidate is expected to conduct research on the topics including both theoretical and computational constituents focused on development of large-scale and robust statistical and machine learning methodology. For the project’s details, please do not hesitate to contact me directly.

Profil du candidat :
Expected qualifications of the successful candidate:
– Master or similar degree in statistics / data science / machine learning / artificial intelligence.
– Knowledge of programming in languages of machine learning: R / Python, C / C++, or similar.
– A good command of English.

Formation et compétences requises :
To candidate, following documents are to be sent on pavlo.mozharovskyi@telecom-paris.fr (please also feel free to write on this address for more details about the position):
– Motivation letter.
– Curriculum vitae.
– Copy(ies) of diploma(s).
– Name(s) / email(s) of at least two references.

Earliest starting date: 1st of October 2021.

Adresse d’emploi :
Telecom Paris,
19 place Marguerite Perey,
F-91120 Palaiseau, France

Categories: theses

– Machine learning of large graphs based on tensor networks

Nov 1 – Nov 2 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : CRIStAL/DATING/SigMA team
Durée : 3 ans
Contact : remy.boyer@univ-lille.fr
Date limite de publication : 2021-11-01

Contexte :
Thesis context
The recruited student will be integrated into the SigMA team within the DATING WG located in the CRIStAL laboratory. It will be able to benefit from the current dynamic activities related to AI and in particular CPER CORNELIA. The recruited student could come and strengthen the existing team composed of Jérémie Boulanger (MdC UdL) and Ouafae Karmouda (2nd year PhD student in AI). This funding request would be consistent with the Franco-German ANR project involving Martin Haardt from the University of Ilemenau. This project is in its submission phase and is scientifically centered around distributed and multi-modal AI. In addition, this thesis work could count on 2 additional partners: Laurent Albera from the SESAME team (Epileptogenic Systems: SignAux and Models) from the LTCI laboratory at the University of Rennes and Arthur Tenenhaus from the Institut du Cerveau et de la Moelle Epinière (ICM). Rémy Boyer has collaborated with the SESAME team and the ICM as part of the thesis of a student (Abdelhak Boudhenane, University of Paris-Saclay) to defend his thesis in November 2021.

Sujet :
Graphs are commonly used to describe the knowledge we have on given phenomena. Social networks can be modeled in the form of graphs whose nodes are users and the edges are the relationships between individuals. Biologists use graphs to describe protein interactions, while communication networks are themselves graphs. The interest of machine learning for graphs has recently become a strategic issue. The objective can be, for example, the prediction of new affinities in social networks, etc. In order to handle and perform operations on graphs, it is important to have an adequate associated mathematical representation (“embedding” in English) [1,2]. The main challenge in this area is to represent the structure of a graph in order to be easily exploited by machine learning methods.
Until now, it is therefore common to associate a graph with a vector or a set of vectors, that is to say, in the form of a matrix. For example, Word2vec is an embedding method which associates a vector with each word. Similar words must have close vector embeddings in the sense of a metric. This embedding step should capture the topology of the graph, the vertex-to-vertex relationships, and any other relevant and available information about the graph, subgraphs, and vertices. Here, we list two of the properties that an embedding method should have:
– Fidelity to topology. The embedding method must describe as closely as possible the topology of the graph (connections and neighborhood). The learning performance will of course be strongly dependent on the choice of the embedding.

– Efficiency on large graphs. Graphs are generally large. For example, we must imagine social networks composed of millions/billions users or the multitude of objects communicating in a home internet network (IoT). Each elementary entity is a node and the edges indicate a knowledge shared between nodes.

The greater the quantity of information captured by the embedding method, the more efficient the learning step will be, but the greater the resources in terms of storage and calculation will be necessary. There is a natural increase in the dimensionality of the embedding method. And in this case, the quantity of information then grows exponentially with the dimension. This trend is known as the “curse of dimensionality”. The methods of the state of the art generally learn representations of explicit nodes from the spectral decomposition of the adjacency matrix or the Laplacian matrix [3] constructed as the difference between the matrix of degrees (a diagonal matrix which contains information on the number of edges attached to each node) and the ajdacency matrix (indicating whether or not nodes are adjacent in the graph). In this thesis work, we want to generalize these approaches to a multi-view graph conext. By multi-views, we understand the broadening of the information base on which we build the embedding [4]. More precisely, it is a question of studying the learning of graphs based on tensor embeddings and the decompositions which are attached to it [5]. In the latter case, we will call on the theory of tensor networks [6,7], which consists of factorizing a tensor of high order into a collection of coupled tensors of order at most 3. The number of edges indicates the order/dimension.

By resorting to tensor networks, the initial massive problem is replaced by a collection of distributed problems involving a reduced amount of data. These approaches, in addition to the reduction of computational and storage complexities, make it possible to gain in interpretability of raw data. The challenge here is to develop this new tensor tool in the context of learning large graphs (large number of nodes). The applications of this work are multi-fold, such as for example machine learning for IoT, 5G telecoms and beyond, social networks or even health (see [8] dealing with the COVID-19 pandemic), …

References
[1] Cai, H., Zheng, V. W., & Chang, K. C. C. (2018). A comprehensive survey of graph embedding: Problems, techniques, and applications. IEEE Transactions on Knowledge and Data Engineering, 30(9), 1616-1637.
[2] Yan, S., Xu, D., Zhang, B., Zhang, H. J., Yang, Q., & Lin, S. (2006). Graph embedding and extensions: A general framework for dimensionality reduction. IEEE transactions on pattern analysis and machine intelligence, 29(1), 40-51.
[3] Belkin, M., & Niyogi, P. (2002). Laplacian eigenmaps and spectral techniques for embedding and clustering. In Advances in neural information processing systems (pp. 585-591).
[4] Al-Sayouri, S., Gujral, E., Koutra, D. et al. (2020) t-PINE: tensor-based predictable and interpretable node embeddings. Soc. Netw. Anal. Min. 10, 46. https://doi.org/10.1007/s13278-020-00649-4
[5] Kolda, T. G., Bader, B. W. (2009). Tensor decompositions and applications. SIAM review, 51(3), 455-500.
[6] Cichocki, A., Lee, N., Oseledets, I., Phan, A. H., Zhao, Q., Mandic, D. P. (2016). Tensor networks for dimensionality reduction and large-scale optimization: Part 1 low-rank tensor decompositions. Foundations and Trends in Machine Learning, 9(4-5), 249-429.
[7] Zniyed, Y., Boyer, R., de Almeida, A. L., & Favier, G. (2020). High-order tensor estimation via trains of coupled third-order CP and Tucker decompositions. Linear Algebra and its Applications, 588, 304-337
[8] Kanatsoulis, C. I., Sidiropoulos, N. D. (2020). TeX-Graph: Coupled tensor-matrix knowledge-graph embedding for COVID-19 drug repurposing. arXiv preprint arXiv:2010.11367.

Profil du candidat :
Candidate requirements
The recruited student must have a solid theoretical background in linear algebra and statistics. Training geared towards machine learning will be a definite plus. The work envisaged is of a methodological and prospective nature. There are many possible fields of application such as for example IoT, 5G telecoms and beyond, social networks, health … In order to validate and apply the developed methods, it is necessary to master tools programming such as MatLab or Python, for example.

Formation et compétences requises :
Schedule
The first 6 months will be dedicated to the acquisition of fundamental mathematical notions for this work. It is about graph theory and the representation of knowledge on graphs. The concept of multilinearity in algebra, including classical tensor factorizations but also more advanced tensor networks should be studied in detail. The following year and a half will be devoted to proposing new tensor representations for a multi-view approach to graphs. Then, a reflection should be carried out in order to determine the ad-hoc topology for the tensor network to be used in the factorization phase and to cope with a distributed architecture for the estimator. The last year will be devoted to the application of the developed algorithms on real data, particularly biomedical data. This last year will also be the occasion for the scientific promotion of the results in the form of a thesis manuscript and publications in the best journals and conferences in the field.

Adresse d’emploi :
Univ Lille and Federal University of Ceará

Categories: theses

Fri

Thèse CIFRE, Télécom Paris/Valeo

Nov 19 – Nov 20 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Telecom Paris/Valeo
Durée : 3 ans
Contact : pavlo.mozharovskyi@telecom-paris.fr
Date limite de publication : 2021-11-19

Contexte :
Thèse CIFRE, Télécom Paris/Valeo

“Détection d’anomalies pour les données à grande échelle et hétérogènes issues des lignes de production”
(“Anomaly detection for large-scale and heterogenous data of production lines”)

Sujet :
La détection d’anomalies est une branche de l’apprentissage artificiel qui vise à identifier des évènements anormaux et aberrants. Bien qu’elle connaisse de nombreuses applications, elle est encore sous-employée dans l’industrie, alors qu’elle peut fournir un outil essentiel pour le suivi et l’amélioration des lignes de production. Dans ce contexte, l’objectif principal de cette thèse est de développer une méthodologie de détection d’anomalies pour les données de grande dimension mesurées en grande quantité à des fréquences variables et possédant en outre une structure hiérarchique ; de telles données – de plus en plus fréquentes dans l’industrie – constituent un défi encore ouvert. En effet, les outils d’apprentissage doivent non seulement permettre de détecter les paramètres de fabrication anormaux et aberrants avec la plus grande fiabilité mais aussi fournir une interprétation de la prévision qui puisse être utile à améliorer le processus de fabrication.
La thèse explorera différentes voies comme la profondeur de données et la classification une classe. Elle sera réalisée dans le cadre d’une collaboration étroite entre l’entreprise Valeo (site de production l’Isle d’Abeau) et Télécom Paris (Institut Polytechnique de Paris). Les méthodes développées seront appliquées à des bases de données issues d’un ensemble de ligne de production de dernière génération.

Encadrants :
Pavlo Mozharovskyi – LTCI, Télécom Paris, Institut Polytechnique de Paris
Florence d’Alché-Buc – LTCI, Télécom Paris, Institut Polytechnique de Paris

Profil du candidat :
Qualifications attendues :
– Master en statistique / science de données / Machine Learning / intelligence artificiel / Diplôme d’ingénieur avec spécialisation dans ces domaines.
– Très bon niveau dans au moins un des langages de programmation de Machine Learning : R / Python, C / C++, ou similaire.

Formation et compétences requises :
– Master en statistique / science de données / Machine Learning / intelligence artificiel / Diplôme d’ingénieur avec spécialisation dans ces domaines.
– Très bon niveau dans au moins un des langages de programmation de Machine Learning : R / Python, C / C++, ou similaire.

Adresse d’emploi :
– Télécom Paris (Campus de Institut Polytechnique de Paris, 25 km de Paris), 19 place Marguerite Perey, F-91120 Palaiseau.
– Valeo, site L’Isle d’Abeau.

Document attaché : 202109151614_CIFRE-thesis-advertisement_fr.pdf

Categories: theses

Sun

Deep Learning for Data to Text and Text to Data Generation

Nov 21 – Nov 22 all-day

Offre en lien avec l’Action/le Réseau : – — –/Doctorants

Laboratoire/Entreprise : Sorbonne Universite – Laboratoire d’Informatique
Durée : 36 mois
Contact : patrick.gallinari@lip6.fr
Date limite de publication : 2021-11-21

Contexte :
Full description: https://mlia.lip6.fr/wp-content/uploads/2021/09/PhD-proposal-Deep-Learning-for-Data-to-Text-and-Text-to-Data-Generation-1.pdf

Knowledge sources are often encoded into structured format such as indexes, tables, triplets, ontologies, knowledge bases, or even raw numerical data. These data are easily readable by machines, but hardly interpretable by humans. On the opposite, textual information, easily accessible to humans is often complex to exploit by machines. A key challenge and an emerging field in machine learning and natural language processing, is the transcription of structured data to text and the inverse problem of transforming raw text into structured data. The former problem is called data-to text generation and it occurs in several applications like journalism, medical diagnosis, financial reports. It may be a component of explainable AI systems. The latter problem is known as semantic parsing and comes in different instantiations like information extraction, reasoning over the structured data (table or graph), generating symbolic queries.

Sujet :
The research will explore new paradigms for the dual tasks of data to text and text to data generation such as:

• Learning from unaligned corpora
Most current methods require learning from parallel corpora, where data and text are fully aligned and correspond closely one to the other. A first line of research will be the development of new unsupervised frameworks allowing training from unaligned data-text corpora.

• Learning from diverse sources
Current benchmarks focus on learning mappings from a unique structured data format to text. In practice data will be collected from different sources encoded through a diversity of formats. A second direction will explore new formalisms for learning such multiple correspondences.

• Controlled text and data generation
Current research mainly focuses on the cases where there is a bijective correspondence between the data and text. A more general task is to summarize information along different aspects of the data. We will explore how to control generation according to different aspects and user needs.

Profil du candidat :
Master in computer science or applied mathematics, Engineering school. Strong background and experience in machine learning and/or natural language processing , and good technical skills in programming.

Formation et compétences requises :
Machine learning and Deep Learning
Experience or interest for Natural Language processing
Strong computer programming skills

Adresse d’emploi :
Sorbonne Université, Pierre et Marie Curie Campus, 4 Place Jussieu, Paris, Fr

Document attaché : 202109281616_PhD-proposal-Deep Learning for Data to Text and Text to Data Generation.pdf

Categories: theses

Tue

Data-based monitoring using template-based probability distributions

Nov 30 – Dec 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : IRT SystemX
Durée : 3 ans
Contact : johanna.baro@irt-systemx.fr
Date limite de publication : 2021-11-30

Contexte :
It is undeniable that artificial intelligence is now critical to the competitiveness of French industry by contributing to innovation-based growth. In this context, the integration and/or safe use of artificial intelligence-based technologies is essential to support engineering, industrial production and the development of innovative products and services. « Industrialization of artificial intelligence for mission-critical systems » is one of the major objectives of the national Grand Défi Trust IA. This industrialization imperative requires providing an environment to support design, validation and testing. It will focus on reinforcing confidence, explainability, and even allow the certification of artificial intelligence. A group of major industrialists in the fields of Defense, Transportation and Energy has been formed to present the roadmap of this program confiance.ai, with the support of leading academic partners. The SystemX Technological Research Institute is coordinating this program.

The IRT SystemX is located at the heart of the Paris-Saclay scientific campus of world excellence, and has the ambitions of a world-class technological research center in the field of digital systems engineering. Its mission is to generate new knowledge and technological solutions based on breakthroughs in digital engineering and to disseminate its skills in all economic sectors.

The subject of the thesis has been defined by the consortium gathered in the framework of the confiance.ai program and more precisely in the EC3 project. The direction of the thesis will be ensured by Goran Frehse of the Computer Science and Systems Engineering (U2IS) laboratory from ENSTA, Paris and the thesis will be registered at the doctoral school IP Paris of Institut Polytechnique de Paris (ED 626).

The U2IS laboratory, led by David Filliat, is developing research in the field of design and reliability of systems integrating autonomous decision-making processes with applications in intelligent transport, robotics, defense and energy. The laboratory brings together the research activities of the ENSTA Paris School in computer science, robotics, vision, embedded systems, signal and image processing and hybrid system design and analysis.

In addition, the doctoral student will benefit from a scientific supervision in the confidence.ai program by Johanna BARO, the referent supervisor in the EC3 project. Within the IRT SystemX, the doctoral student will be hierarchically attached to the scientific axis « Sciences des données & Interaction » whose manager is Georges Hébrail.

Sujet :
The detailed subject is avalaible here : https://www.irt-systemx.fr/recrutement/data-based-monitoring-template-based-probability-distributions/

This PhD subject relates to the online monitoring of AI models set up to detect at runtime any deviation of an AI component deployed in operation from the specified expected behavior or from safe operation properties.

The challenge to address in this thesis work is to introduce machine learning technique in a hybrid approach mixing data and model from control theory to monitor the state of the system in real-time. Beforehand, different types of anomaly profiles need to be formalized in order to capture the desired properties and trustworthiness guarantees. The goal is to develop a hybrid data-driven and model-based approach using envelope based-models to detect abnormal behavior based on extrapolation in a runtime monitoring system.

Profil du candidat :
Candidates must hold a master or engineering degree with a strong academic background related to either control theory or machine learning and should be ready to deep dive into the other domain.

Knowledge and know-how:
– Fundamentals of feedback control (Kalman filters, linear systems)
– Basic knowledge of statistics and probability theory
– Basics in any of the programming languages Python, C/C++, or Matlab

Application procedure : https://www.irt-systemx.fr/recrutement/data-based-monitoring-template-based-probability-distributions/

Formation et compétences requises :
Candidates must hold a master or engineering degree with a strong academic background related to either control theory or machine learning and should be ready to deep dive into the other domain.

Application procedure : https://www.irt-systemx.fr/recrutement/data-based-monitoring-template-based-probability-distributions/

Adresse d’emploi :
The position is based in Palaiseau (IRT SystemX). The PhD student may be required to travel to the laboratory.

Categories: theses

Thèse CIFRE : Architecture des données avec BNPParibas Real Estate

Nov 30 – Dec 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : CEDRIC, CNAM
Durée : 3 ans
Contact : elena.kornyshova@lecnam.net
Date limite de publication : 2021-11-30

Contexte :
Définition de l’architecture des données pour la gestion contextuelle de leur qualité dans le secteur bancaire

Il est aujourd’hui largement reconnu que l’utilisation de données non appropriées, obsolètes ou incomplètes à un impact négatif sur les systèmes d’information et sur la qualité des services qu’ils délivrent. Les problèmes engendrés par une mauvaise qualité des données ont un impact évident sur l’image de l’entreprise mais peut à terme avoir un impact sur sa survie. Dans le secteur bancaire, assurance et immobilier, la qualité des données est un sujet critique et les exigences de la qualité sont encore plus élevées vu la nature des données manipulées (données privées, financières) et les réglementations en cours.
La donnée est au cœur de nombreux processus opérationnels et de décision. Le rôle de l’évaluation de la qualité est alors d’ajouter des informations permettant d’éviter le biais ou les fausses conclusions que pourrait induire des données erronées ou imprécises. Cependant, cette évaluation est complexe et multidimensionnelle nécessitant l’intégration du contexte (de production, d’acquisition et d’usage de la donnée). Une démarche contextuelle de gestion de la qualité des données nécessite une vision globale du système information afin de mieux déterminer et comprendre, les risques liés à la non qualité, les divers acteurs impliqués dans le processus de transformation de la donnée et leur impact sur la qualité et les dimensions de qualité et leur qualification dans le contexte. Une telle vision peut s’appuyer sur l’architecture d’entreprise (AE) qui adresse les problématiques de gestion de l’entreprise et de son système d’information dans son ensemble.
L’architecture d’entreprise est une approche globale de l’entreprise qui permet, grâce à la mise en place d’une discipline d’architecture, d’aligner le système d’information aux objectifs stratégiques et aux besoins métiers. Elle fournit aux différents acteurs une description structurée de l’ensemble de ses ressources sous forme d’un cadre (cartographie, cible et référentiel). Les référentiel ’architecture contiennent, entres autres, les règles et les principes pour qu’une entreprise puisse compléter sa mission de façon pérenne (1, 13). Différentes approches adressent ces problèmes notamment les approches d’urbanisation des SI (2).
L’architecture des données fait partie de l’architecture du système d’information de toute entreprise. La démarche d’AE comprend la création d’un référentiel des données et l’établissement des principes spécifiques à cette dimension du SI (par exemple, « les données sont saisies une fois », « les données sont fournies par leur source ») afin d’assurer la cohérence, la pérennité et l’adaptabilité d’utilisation de la gestion des données.
Concernant la qualité dans le domaine d’AE, peu de travaux s’y intéressent de façon holistique. (3) définit un ensemble d’attributs de qualité adaptés au domaine de l’architecture d’entreprise en faisant une extension du standard ISO 9126 et souligne que des critères de qualité doivent être établis pour l’ensemble de principes d’architecture ainsi que pour chaque dimension de l’architecture (y compris celle des données). Appliqué à l’AE, (4) définit deux types de qualité, interne et externe, en parlant de la qualité des modèles de l’AE en général.
Le travail de recherche adressé dans ce projet de thèse a pour but de définir l’architecture de données correspondant au niveau de qualité attendu et en fonction du contexte donné. Plusieurs objectifs devront être atteints afin de résoudre le problème posé :
Les travaux existants sur les données adressent la définition de la qualité (5, 6), sa modélisation (7, 8, 9) et son évaluation (10, 11). De nombreux travaux reconnaissent la nature multidimensionnelle de la qualité des données (12). La qualité d’une donnée s’évalue selon diverses dimensions telles que la complétude, la fraîcheur, l’actualité, la pertinence etc. Ces dimensions ne sont pas toujours indépendantes et la qualité globale nécessite souvent un juste équilibre entre ces diverses dimensions. Une des problématiques de recherche qui reste ouverte est la qualification et la quantification de ces interdépendances.
Un autre facteur qui rentre en compte est le fait que la qualité engendre un coût et que l’arbitrage est souvent décidé par le coût plus que par le besoin de qualité. Cependant, bien qu’il existe des approches adressant l’évaluation du coût de la qualité, il est souvent difficile de juger de ce coût et il serait plus judicieux de le comparer au coût de la non qualité.
Ensuite, la qualité n’est jamais un objectif absolu et toutes les approches qui s’appuient sur la définition de seuils d’acceptabilité pour les dimensions de la qualité sont contestables puisque la fixation de ces seuils est souvent subjective. Il est plus judicieux de considérer une vision contextuelle de la qualité où les objectifs de qualité devraient être paramétrés par les contextes d’usage. Ceci nécessite d’abord la définition du concept de contexte d’usage et de ses composantes. Il convient ensuite de définir une approche permettant d’élaborer des stratégies de la qualité en fonction du contexte.
Enfin, une architecture de données doit être définie afin d’établir les services d’architecture d’entreprise pour la gestion de cette qualité (14). Cette architecture devrait prendre en compte la nature des données, les processus impliqués et/ou influencés par ces données. Ceci passe par la formalisation du concept de qualité contextuelle et la définition d’une démarche permettant de développer une telle architecture.

Sujet :
Le travail qui sera mené dans cette thèse vise à proposer une approche de gestion contextuelle de la qualité des données en se basant sur les principes de l’architecture des données. Cette approche sera développée pour être utilisée dans le secteur bancaire.
Cette approche devra :
– Comporter un ensemble de solutions comprenant un cadre méthodologique et des modèles. Ces solutions devront être suffisamment génériques pour permettre leur utilisation dans divers contextes lors de la construction de nouveaux systèmes,
– Fournir une démarche permettant d’assister l’application de ces solutions pour gérer la qualité d’un système existant,
– Etre contextuelle en tenant compte du contexte d’usage des données dans l’évaluation et l’amélioration de leur qualité. Une telle approche vise à élaborer des stratégies personnalisées pour la gestion de la qualité des données. Cette personnalisation portera sur le choix des dimensions de qualité à considérer, la manière de les évaluer et le poids à leur affecter dans l’évaluation globale tout en tenant compte de leur contexte d’usage,
– S’inscrire dans la démarche d’architecture d’entreprise, afin d’assurer la cohérence de la gestion de la qualité des données avec les exigences d’évolution du système d’information de l’organisation,
– Etre outillée en implémentant la démarche méthodologique proposée par des outils adéquats,
– Etre validée sur des cas d’application et des données réelles.

Profil du candidat :
Bac+5 en informatique

Formation et compétences requises :
Architecture d’entreprise, Ingénierie des systèmes d’information.
Autonomie, capacités rédactionnelles

Adresse d’emploi :
2 rue Conté, Paris 75003

Document attaché : 202109271428_CIFRE – Data Quality.pdf

Categories: theses

Dec

Wed

Thèse CIFRE : Interprétation automatique de données géophysiques par techniques d’apprentissage

Dec 1 – Dec 2 all-day

Offre en lien avec l’Action/le Réseau : MACLEAN/– — –

Laboratoire/Entreprise : LISTIC (USMB) et Géolithe
Durée : 3 ans
Contact : guillaume.ginolhac@univ-smb.fr
Date limite de publication : 2021-12-01

Contexte :
Le géoradar ou Ground Penetrating Radar (GPR) est une technologie permettant de sonder les sols à la recherche d’objets enfouis ou étudier la composition du sol (différentes couches constituantes et leurs proportions par exemple). Il s’agit d’un système radar émettant une onde électromagnétique pénétrant le sol et se réfléchissant sur les différents éléments le constituant. En captant les signaux réfléchis, on peut obtenir un signal appelé radargramme et qui est analysé pour étudier le sol en question. L’amélioration récente des technologies en termes d’antennes ont permis une réduction significative de la taille des géoradars. Ainsi il est envisageable de considérer un scénario de géoradar aéroporté (monté sur un drone) afin d’analyser les sols ainsi que les pans de montagnes de manière plus extensive.

Dans ce cadre, le projet s’intéresse à l’étude radargrammes obtenus en milieu montagneux dans le cadre de mission de protection contre les risques naturels gravitaires. Cette information est capitale pour prévoir la chute de rochers ainsi que des glissements de terrain dont la fréquence augmente avec le réchauffement climatique et éviter des dégâts potentiels aux infrastructures de montagne telles que les routes, ponts, bâtiments et autres infrastructures liés aux activités économiques telles que le tourisme. Le scénario du géoradar aéroporté étant éloigné du scénario classique du géoradar plaqué au sol, il est ainsi nécessaire de prendre en compte les spécificités de ce nouveau mode d’acquisition. Une transposition directe des outils de traitements développés pour le géoradar plaqué au sol n’est donc pas possible.

Le but général dans ce contexte est de détecter / classifier les différentes structures géologiques ou objets présents dans le sous-sol. Pour réaliser cette opération, Géolithe a l’intention d’utiliser des techniques d’intelligence artificielle (IA) nécessitant des données préalablement labélisées. Ce travail de labellisation a été initié au sein de l’entreprise et la base de données est mise à jour continuellement.

Sujet :
Malheureusement, il est très difficile d’appliquer directement les techniques d’IA à cause de plusieurs paramètres :
• Les images provenant des données GPR sont déjà dans le cas classique assez bruitées entrainant un rapport signal à bruit peu important. Ce problème est encore plus prononcé pour les géoradar aéroporté car ils sont situés plus loin de la surface. De plus, ces images GPR aéroportés comportent un certain nombre de données aberrantes qui peuvent réduire fortement la performance des algorithmes d’IA.
• La diversité des données est assez pauvre. En effet, une seule gamme de fréquence est utilisée et il n’y a pas d’information polarimétrique ce qui rend la distinction entre les objets délicate.
• Les données sont labélisées par des experts mais pour un non spécialiste, il n’est pas toujours évident de distinguer les différences et il est donc probable que la phase d’apprentissage soit cruciale pour bien distinguer les différentes réponses du sous-sol.
• Même si les données labélisées par géolithe sont importantes, elles seront sûrement insuffisantes pour entrainer un algorithme d’IA n’ayant pas été pré-entrainé.

Pour utiliser efficacement les techniques d’IA, il va falloir bien prendre en compte ces différentes problématiques et faire évoluer les algorithmes existants pour qu’ils s’adaptent à la caractéristique des données GPR. Plus particulièrement, il sera difficile d’utiliser les données brutes directement.

Les objectifs de la thèse sont doubles :
• Dans un premier temps il s’agit de trouver un espace de représentation des données (features) permettant de mieux faire ressortir les différences entre les différentes classes des données labélisées. On s’intéressera notamment à des représentations par matrices de covariances qui sont une solution apportant des bonnes performances dans des applications liées au radar
• Dans un second temps, l’objectif est de développer des algorithmes efficaces et adaptés à cet espace de représentation. Notamment, les features obtenues peuvent vivre un espace de représentation non-euclidien et il sera nécessaire de prendre en compte cet aspect à l’aide d’outils tels que la géométrie riemannienne.
• Considérer d’un point de vue théorique les réseaux ainsi obtenus et apporter de la robustesse dans les architectures utilisées face aux contraintes évoquées en imagerie GPR.

Profil du candidat :
Master recherche ou ingénieur avec une expérience en apprentissage statistique

Formation et compétences requises :
Intérêt pour les mathématiques appliquées (statistiques, algèbre linéaire)
Compétences : vision par ordinateur, statistiques, apprentissage automatique, notamment deep learning
Programmation : Python, frameworks de Deep Learning (Tensorflow, PyTorch)

Adresse d’emploi :
LISTIC, Annecy
Géolithe, Grenoble

Document attaché : 202109011525_Sujet these Geolithe.pdf

Categories: theses

Dec

PhD position in Deep Learning methods for long non-coding RNA prediction in cancer

Dec 27 – Dec 28 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : IBISC, UEVE, Université de Paris-Saclay
Durée : 3 ans
Contact : fariza.tahi@univ-evry.fr
Date limite de publication : 2021-12-27

Contexte :
RNAs, and more precisely non-coding RNAs (ncRNAs, RNA untranslated into proteins), have aroused growing interest in the international scientific community in recent years, due to their proven involvement in many biological processes and the important role they can play in pathological processes such as cancer. They are thus increasingly considered as potential therapeutic targets or biomarkers (diagnostic and prognostic markers).

Recently, many long ncRNAs (lncRNAs), larger than 200 nucleotides, have been identified as potential regulators. But unlike small ncRNAs, their characterization by structure and function is far from established. The determination of the structure, 2D or 3D, of an lncRNA by experimental methods (crystallography, NMR) or bioinformatics methods is a major challenge, since it helps to elucidate its function. RNAs from the same family indeed share the same structure, giving them the same function, the structure guiding in particular the interactions of this RNA with proteins or other RNAs.

Sujet :
In this project, we propose to develop computational methods based on Deep Learning to predict and characterize lncRNAs by integrating different data: sequence, 2D and 3D structure, interaction with coding or non-coding genes. and genetic and epigenetic alterations. The development of methods to predict the 3D structure of RNAs, such as those developed by DeepMind (the AI subsidiary of Google), could also be considered.

The methods developed will be applied to cancer and will provide a better understanding of the involvement of RNAs in this pathology. Cancer in a given tissue is a heterogeneous disease; several cancer subtypes can be identified. Treatments and diagnosis should be tailored to each subtype. In this project, we will be interested in lncRNAs in a frequent cancer, bladder cancer (4th cancer in terms of incidence in men) as well as in pediatric cancer, retinoblastoma. A small number of lncRNAs predicted to be potentially involved will be functionally validated by the team of biologists. We hope ultimately to be able to offer clinicians new diagnostic or prognostic markers and enable them to better understand the biological causes of the disease in order to optimize treatments.

The final objective of the project will be to implement generic methods and tools for the prediction of lncRNAs. The tools developed will be made available to the scientific community via our EvryRNA platform:
http://EvryRNA.ibisc.univ-evry.

Profil du candidat :
Students with background in computer science and data sciences, in particular in machine learning and deep-learning. Knowledge of bioinformatics and biology will be highly appreciated.

Formation et compétences requises :
Master 2 in Data Sciences, Bioinformatics/Computational Biology or Computer Sciences (or equivalent).

Adresse d’emploi :
IBGBI, IBISC, 23 b. de France, 91000 Evry

Document attaché : 202110271212_Phd-Offer-FR-EN.pdf

Categories: theses

Dec

Fri

éveloppement d’une approche d’intégration de données multi-omiques pour expériences multi-groupes

Dec 31 2021 – Jan 1 2022 all-day

Offre en lien avec l’Action/le Réseau : MACLEAN/– — –

Laboratoire/Entreprise : INRAE & Pierre Fabre Cosmétique
Durée : 3 ans
Contact : nathalie.vialaneix@inra.fr
Date limite de publication : 2021-12-31

Contexte :
Le développement des approches haut débit en biologie permet maintenant la production massive de données omiques pour des contextes applicatifs variés. Ces données sont fréquemment obtenues sur les mêmes individus à divers niveaux de l’échelle du vivant (transcriptomique, métabolomique, protéomique, lipidomique, métagénomique, …), sous des formats très variées (données de comptage, spectres, images, …) qui ne sont pas toujours directement interprétables d’un point de vue biologique, sont de très grande dimension (de nombreuses caractéristiques sont mesurées simultanément) et ont été obtenues pour un nombre d’échantillons qui reste modeste en comparaison du nombre de mesures effectuées. Il s’agit alors de les mettre en relation entre elles et avec les informations cliniques et le plan d’expérience complexe dans lesquelles elles ont été produites.
Si certaines analyses statistiques, comme l’analyse différentielle des diverses mesures relative à une donnée omique en relation avec des groupes d’individus (contrôles / traités par exemple) est maintenant bien balisée pour la plupart des types d’omiques, les besoins en méthodes d’intégration de données, c’est à dire en méthode capable d’extraire de l’information en combinant les vues provenant de plusieurs omiques, sont en pleine expansion et sont un sujet de recherche actif.
Pierre Fabre Cosmétique est engagé dans de multiples projets dans lesquels ce type de problèmes se pose et où des données omiques multiples ont été acquises. Les questions relatives à la combinaison de données omiques y sont posées soit sous la forme d’une problématique d’association (quels sont les éléments moléculaires – métabolites, bactéries, … – que l’on retrouve en association dans les échantillons entre deux types d’omiques), soit sous la forme de la recherche de biomarqueurs (quels sont les éléments descripteurs d’un état phénotypique mesuré au travers de données cliniques multiples). Elles sont également systématiquement associées à un plan d’expérience dans lequel les échantillons sont structurés en groupes qu’il faut prendre en compte pour répondre à la question biologique ou clinique sous-jacente.

Sujet :
L’objectif de la thèse sera positionné sur le développement méthodologique pour l’intégration de données avec une implémentation et application aux données du projet. De manière plus précise, il s’agira de développee une approche à noyau (et d’un outil associé interactif et intuitif) pour l’intégration d’une paire de données omiques dans un cadre exploratoire et de problématiques d’association. L’approche développée durant cette thèse se veut flexible (adaptable à des types de données très variées), interprétable (capable d’identifier les variables importantes) et capable de prendre en compte le protocole expérimental et les groupes d’échantillons définis a priori pour proposer des interprétations communes et spécifiques de la question initiale au regard de ces groupes. L’approche développée sera déclinée pour l’interprétation biologique dans les divers projets de Pierre Fabre Cosmétique inclus dans la thèse.

Profil du candidat :
Nous recherchons un candidat⋅e avec une solide formation en mathématiques appliquées et des aptitudes à la programmation (R et python). Une expérience préalable ou un goût pour les données issues de la biologie moléculaire serait un plus.

Formation et compétences requises :
Master 2 ou école d’ingénieur en mathématiques appliquées ou sciences des données.

Adresse d’emploi :
Toulouse

Categories: theses

Jan

2022

Integrating and exploring linked educational resources

Jan 10 – Jan 11 all-day

Offre en lien avec l’Action/le Réseau : – — –/Doctorants

Laboratoire/Entreprise : Laboratoire des Sciences du Numérique de Nantes (L
Durée : 3 ans
Contact : Patricia.Serrano-Alvarado@univ-nantes.fr
Date limite de publication : 2022-01-10

Contexte :
Context and motivation
Teachers have been digitizing their courses for a while and the ongoing digital transformation was accelerated by the Covid-19 lock-downs. Teachers usually search for open educational resources (OER) on the Web to reuse and combine in a course. There are many available, useful, and pertinent resources (slides, videos, figures, text, code, etc.), but finding them and organizing them in a course plan is challenging. Ideally, the necessary analysis of available resources to match a course plan and the licenses verification should not be time-consuming.

Thanks to semantic web technologies, this work aims to allow teachers to define a sketch of a new course from which a set of relevant and license compatible educational resources will be suggested for her course. The course sketch may contain metadata such as the intended license of the course, learning outcomes, the knowledge required, knowledge attempted, skills expected, an initial course syllabus, expected duration, targeted competencies, etc. Machine-readable semantic annotations will help link and enrich educational resources thanks to well-known ontologies.

Sujet :
Problem statement
A compatibility graph of licenses [1] can allow producers of educational resources to know which license(s) can protect a combination of resources. When licenses of combined resources are incompatible, it is not possible to license the course. In that case, it is necessary to discard resources that are protected by conflicting licenses. However, this may lead to a query with empty results, i.e., the combination of educational resources is not possible without infringing licenses. Thus, given a course sketch and a set of licensed educational resources, how to guarantee to produce a course whose license is compliant with the licenses of the reused resources? The issue is to relax the course sketch goal to propose relevant, alternative, and license compatible educational resources to be combined in a course.

Ontology-based relaxation allows seeking alternative solutions to expand the scope of a query [2,3]. In [4], we propose a license-aware query processing strategy for distributed queries in the Web of Data. Our contribution allows us to detect and prevent license conflicts during distributed query processing. But, in the context of educational resources, several issues arise, for instance, (1) how semantically define a query from a course sketch, (2) how to define a ranking strategy of matching educational resources, and (3) how to guarantee a result set with a minimal number of pertinent educational resources.

Objectives
The objective of this PhD thesis is to propose a query processing strategy to explore a knowledge graph of educational resources. In particular, the following challenges will be leveraged.
– Defining a complex SPARQL query from a course sketch containing join, union, filter, optional operators, etc.
– Defining a ranking strategy that, based on the enrichment of the educational resources, will provide an ordered set of relevant resources for a course sketch.
– Defining a query relaxation strategy that guarantees a minimal number of relevant and license compatible educational resources. Ontology-based relaxation will be used to expand the scope of the query goals.
Contributions will be validated experimentally and published on high-quality international conferences and workshops.

MORE INFORMATION AT https://bit.ly/2ZZq2w0

Profil du candidat :
Master in computer science or equivalent; good programming skills in Java, JavaScript, Web applications, Python; good basis on semantic web technologies (RDF, OWL, SPARQL); good oral and written communication skills in English (French is not required).

Formation et compétences requises :
To apply: send your application to serrano-p@univ-nantes.fr with a detailed curriculum vitae, grade transcripts (with your classement), two references, and your BSc/MSc theses as PDF. Applications will be received until the position is filled.

Adresse d’emploi :
2 Rue de la Houssinière, 44322 Nantes
Faculté des Sciences et des Techniques
Université de Nantes

Categories: theses

Interactive Explainability of Machine learning applied to language tasks

Jan 10 – Jan 11 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : IRIT, Toulouse University & NUS, Singapore
Durée : 3 ans
Contact : philippe.muller@irit.fr
Date limite de publication : 2022-01-10

Contexte :
The thesis takes place within the Descartes project (https://www.cnrsatcreate.cnrs.fr/descartes/),
a large France-Singapore collaboration project on applying AI to urban systems.
The project will generate a lot of data about artifical systems deployed in the wild, part of which will be expressed as textual data (expert reports, user reactions,
news coverage, social media conversations). Natural language processing (NLP) models can help access that voluminous information, but there is an important need
from operators, policy makers and public institutions to understand the reasons behind models’ behaviours and the information they extract, to be able to evaluate
their potential issues (accuracy, fairness, biases).
This thesis will investigate methods design to explain machine learning systems typically used in NLP while integrating an interactive process with the system users.

Sujet :
Modern machine-learning based AI systems, while achieving good results on a lot of tasks, still appear as “black-box” models, where it is difficult to
trace the path from the input (a text, an image, a set of sensor measures) to the decision (classification of a document, an image, a situation).
The issue of explainability poses two different problems: (1) what is a good explanation, and specifically what is a good explanation in the context of textual models?
and (2) how to scale existing explanation methods to the kind of models used in NLP tasks?
About (1), existing methods for image classification or tabular data tend to rely on the extraction of a set of pixels or features that are sufficient for generating predictions, or increase the probabilities of the prediction. It is less straightforward for textual input, which consists of words, but whose meanings are inter-related in a given context (for instance “good” in a review could be an indication that the review is positive … unless it is preceded by “not”). So the first problem of this thesis will be to provide humanly acceptable explanations of simple text classifiers such as those foreseen for the detection tasks in
the dedicated sub-project of Descartes.
About (2), modern NLP models are based on very large and complex architectures, such as the transformer family. Logically sufficient or causally satisfying explanations are difficult to get for such cases, as both such methods suffer from scalability problems. So we will explore heuristics based on our solution to the first problem guiding an interactive procedure between explainee (the person requesting the explanation) and the ML system whose predictions should be explained. We will evaluate the procedure on those users targeted for the use cases of the project. Brian Lim from NUS Singapore will help design the validating experiments.

References:
– Descartes project: https://www.cnrsatcreate.cnrs.fr/descartes/
– A Survey of the State of Explainable AI for Natural Language Processing
Marina Danilevsky, Kun Qian, Ranit Aharonov, Yannis Katsis, Ban Kawas, Prithviraj Sen, ACL 2020. https://aclanthology.org/2020.aacl-main.46/
– Explanation in artificial intelligence: Insights from the social sciences
Tim Miller, Artificial Intelligence 267:1-38 (2019)
– Interpretable Machine Learning, Christoph Molnar. https://christophm.github.io/interpretable-ml-book/
– Alexey Ignatiev, Nina Narodytska, and Joao Marques-Silva. 2019. On Relating Explanations and Adversarial Examples. In NeurIPS. 15857–15867.
– Shrikumar, A.; Greenside, P.; and Kundaje, A. 2017. Learning important features through propagating activation differences. In Proceedings of the 34th International Conference on Machine Learning-Volume 70, 3145–3153. JMLR. org.
-Ribeiro, M. T.; Singh, S.; and Guestrin, C. 2016. Why should I trust you?: Explaining the predictions of any classifier. In ACM SIGKDD.

Profil du candidat :
A background in Computer Science and/or Machine learning.
Familiarity or a willingness to acquire a familiarity with both model based and model agnostic explanation paradigms that use either logical or statistical methods.
A familiarity with NLP / dialogue would be a plus.
Given the nature of the project, the student should be open to work in a cross-disciplinary environment, and have good English communication skills

Formation et compétences requises :
A background in Computer Science and/or Machine learning.
Familiarity or a willingness to acquire a familiarity with both model based and model agnostic explanation paradigms that use either logical or statistical methods.
A familiarity with NLP / dialogue would be a plus.
Given the nature of the project, the student should be open to work in a cross-disciplinary environment, and have good English communication skills

Adresse d’emploi :
The thesis will happen within the France-Singapore collaboration, with advisors from both sides. The student will be registered at the University of Toulouse, and part of the IRIT lab, but is expected to spend a good part of the thesis in Singapore at the partner lab, with funding provided by the Descartes project.

The thesis will be supervised on the French side by Nicholas Asher and Philippe Muller, both NLP experts on text and conversation analysis, and co-advised
by Nancy Chen from the A* lab, expert in NLP and dialogue, and Brian Lim at the National University of Singapore, an expert on Human-Computer interaction. The French advisors will also spend time at NUS during the thesis.

Contact: nicholas.asher@irit.fr, philippe.muller@irit.fr, nfychen@i2r.a-star.edu.sg

Categories: theses

RESUMES : peRsonal knowlEdge baSe constrUction froM hEterogeneous Sources

Jan 10 – Jan 11 all-day

Offre en lien avec l’Action/le Réseau : – — –/Doctorants

Laboratoire/Entreprise : Télécom SudParis, Laboratoire SAMOVAR, Carian Soft
Durée : 3 ans
Contact : amel.bouzeghoub@telecom-sudparis.eu
Date limite de publication : 2022-01-10

Contexte :
This thesis is a CIFRE and a collaboration between Telecom SudParis and Carian Software Development. The position will start before October 2022.

Sujet :
RESUMES : peRsonal knowlEdge baSe constrUction froM hEterogeneous Sources

The Web is composed of many documents of different nature, such as texts, images, or videos. These documents contain information about a wide range of topics that are noisy, unstructured, and ambiguous. Therefore, exploiting this variety is a huge challenge. When it comes to information about humans, one could use specialized websites such as social media, forums, blogs, or personal websites. However, it raises many problems. For example: How can we, from a single source, extract knowledge about a person? How can we know that two accounts on two different websites represent a single person? How does a person communicate with others?

This kind of information can be valuable in many applications, and in particular for CV enrichment. Given a candidate’s resume, we would like to complement it with external sources such as Linkedin, Reddit, or GitHub. These additional clues can help a recruiter to make the appropriate decisions.

This thesis aims to construct a Personal Knowledge Base (PKB) from information gathered online to complement a resume. A personal knowledge base is a collection of structured statements about a person that can be queried and on which one can reason.

For example, let’s say we have a candidate called John. He has a GitHub page that we managed to link to his resume. We extracted statements such as “John, knows, Java” and “John, contributes to, Open Source projects” from his profile. These statements are now part of his PKB. Now, we find a StackOverflow account for the same username. This account answered many questions about Java. We might suppose that the two accounts belong to the same person, and therefore we can complete John’s PKB. Suppose we know that this John is a potential candidate for a company working on open source projects written in Java. In that case, we can boost his resume and present additional information to help the recruiter.

Profil du candidat :
See below.

Formation et compétences requises :
For this thesis, we will consider candidates with a master or engineer diploma with knowledge about several of the following skills:
* Fluent written and spoken English. Some knowledge of French can be useful.
* Machine/Deep Learning
* Natural Language Processing
* Very good level in a programming language like Python and experience in software development
* Information extraction
* Knowledge bases/Ontologies
* Logic and automated reasoning
* Semantic Web and Web crawling
* Experience in a research laboratory

Adresse d’emploi :
Telecom SudParis, 9 Rue Charles Fourier, 91000 Evry-Courcouronnes FRANCE
and
Telecom SudParis, 19 place Marguerite Perey, 91120 Palaiseau, France

Document attaché : 202111041617_SujetTheseCIFRE.pdf

Categories: theses

Jan

2022

Combining educational resources through graph representation learning

Jan 31 – Feb 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/Doctorants

Laboratoire/Entreprise : IRISA / Université de Rennes 1
Durée : 3ans
Contact : zoltan.miklos@irisa.fr
Date limite de publication : 2022-01-31

Contexte :
There is a large number of publicly available learning resources. Combining these resources and creating potential coherent sequences to achieve a specific learning goal is a challenging task for educators. Identifying resources to complete or complement an existing course also requires a considerable effort. At the same time, teachers and professors are confronted with the task of creating online courses within a very short time, in particular during the Covid sanitary crisis. Making sense of large collections and especially identifying connections between learning resources is challenging and time-consuming.

Sujet :
The objective of the CLARA project, financed by Cominlabs, is to support and assist educators in associating learning resources to learning paths, in particular relative to the designed curricula. We would like to design such methods with the help of various methods from artificial intelligence. Specifically, we will associate various pieces of information to the resources, such as metadata and knowledge graphs. Then we would like to exploit graph matching and graph representation learning [Ham2020] techniques that relate these individual graphs and identify more specific connections between the ressources.
However, the graph representation learning methods are not directly adapted to address the specific problem of linking open educational resources, for the following reasons :
There could be several knowledge graphs that are associated with a specific resource. We could also have different versions of the same knowledge graph.
Besides the knowledge graphs, we can have other metadata that could be exploited.
Most importantly, if we would like to complete an existing path of resources with an additional one, the choice might depend on the entire path and not only one single resource of this path. In other words, in order to predict which resources are related and could be used in a curriculum, we should exploit higher-order features [Bick2021] of the networks and tensors that we will construct. The learned graph representation should also represent the paths of resources.

We propose to work on this specific problem in the thesis. We plan to develop representation learning techniques for higher-order networks that can support path finding methods. There are some recent works in this direction, including [Rossi18], [Saebi21] and [Benson2018]. However, these works do not focus on knowledge graphs. Moreover, prerequisite relations between concepts, if they are known, should also be given special attention.

Profil du candidat :
– Master in computer science
– with good results
– interest in research,
– scientific curiosity

Formation et compétences requises :
– machine learning
– graph representation learning
– knowledge graphs
– programming in Python
– very good command of English
– French is a plus, but not required

Adresse d’emploi :
Univ Rennes CNRS IRISA
Campus universitaire de Beaulieu
263 av Gen Leclerc
35024 Rennes cedex
France

Document attaché : 202111180821_2021 PhD position at IRISA.pdf

Categories: theses

Partitionnement sous contrainte de similarité

Jan 31 – Feb 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIAS, ISAE-ENSMA
Durée : 3 ans
Contact : brice.chardin@ensma.fr
Date limite de publication : 2022-01-31

Contexte :
SRD est un gestionnaire de réseau de distribution d’électricité chargé de gérer, exploiter, entretenir et développer un réseau électrique couvrant 90% de la Vienne. Pour l’optimisation de son réseau et la planification d’investissements, SRD cherche à modéliser le comportement des consommateurs et producteurs qu’il dessert.
Bien que cette modélisation soit principalement basée sur les valeurs historiques de puissance transitant sur le réseau, SRD s’intéresse plus particulièrement à son pouvoir prédictif, c’est-à-dire sa capacité à capturer le comportement futur des éléments considérés.

Sujet :
L’objectif scientifique principal de cette thèse est d’élaborer des techniques de classification permettant d’identifier des groupes d’éléments avec une garantie de dissimilarité maximale entre deux éléments d’un même groupe, et de positionner ce type d’approche par rapport aux algorithmes de partitionnement existants, notamment les approches par densité.
Les techniques considérées ici sont basées sur un partitionnement sous contrainte, et plus spécifiquement sous contrainte de dissmilarité intra-cluster maximale. Ce type de partitionnement garantit une certaine proximité entre les membres d’un groupe et le représentant désigné in fine pour les remplacer.

Profil du candidat :
Le candidat devra posséder des connaissances en développement logiciel, systèmes d’information, statistiques et analyse de données.
Un bon niveau en français et en anglais est également nécessaire.

Formation et compétences requises :
Le candidat devra être titulaire d’un master en informatique ou d’un diplôme d’ingénieur.

Adresse d’emploi :
ISAE-ENSMA, 1 avenue Clément Ader, 86360 Chasseneuil-du-Poitou

Document attaché : 202112151748_Sujet_labcom-alienor.pdf

Categories: theses

Feb

Thu

2022

Optimized Performance Techniques for Next Generation Satellite Communication Networks

Feb 24 – Feb 25 all-day

Offre en lien avec l’Action/le Réseau : – — –/Doctorants

Laboratoire/Entreprise : Institut Fresnel
Durée : 3 ans
Contact : andre@fresnel.fr
Date limite de publication : 2022-02-24

Contexte :
With the rise of Internet-of-Things (IoT) applications and the need for massive connectivity, future 6G networks should meet the demands for the global access to high-speed Internet [1]. One of the envisaged solutions consists in deploying non-terrestrial networks such as networks of satellites or microsatellites in the low Earth orbit (LEO). Such satellites have a much lower manufacturing and launch costs than the traditional satellites, such as those placed in the geostationary orbit. Such very high-throughput satellite (VHTS) networks will be able to meet the future substantial data traffic requirements [1,2]. The specificity of these satellites (or microsatellites) is that they have limited capacities and resources (energy, computing, etc.). However, they are more flexible in terms of resource management, such as power and bandwidth allocation. Another particularity of such networks is the irregular distribution of users (on the Ground) and the variability of connections and, therefore, the data traffic over time. This calls for energy efficient and high-speed connectivity solutions for inter-satellite and satellite-to-ground links. In particular, the use of laser communications or free-space optics (FSO) technology promises high rate and secure data transmission over very large distances [3].

Sujet :
In practice, the establishment of such links is associated with several challenges in terms of (a) link availability/reliability and (b) resource management at the satellite. Indeed, the irregular distribution of users (on the Ground) and the variability of data traffic during the day appeal for the design of efficient architectures with flexible resource allocation according to the requested traffic [6].

(a) The first objective is to propose advanced transmission techniques to establish high-speed communication links with high-reliability between microsatellites or between a microsatellite and a Ground station [7]. These solutions must in particular take into account the atmospheric
channel and the vibrations of the payloads, which can cause significant pointing errors (i.e., misalignment between the transmitter and the receiver) [4]. This first step includes the modeling of optical communication channels and will be carried out in collaboration with the
University of Edinburgh.

(b) In a second step, machine learning-based mechanisms will be designed for performing automated resource allocation in order to increase the capacity of satellite-Earth links [8-9]. This will exploit the flexibility of microsatellites in terms of resource management, such as
power and bandwidth allocation.

For more details, see the attached file.

Profil du candidat :
A solid background in signal processing is an important asset. An experience or training in digital communications is also very welcome. The candidate must have a very good English language proficiency (oral and written expression) and be keen for short-term stays in partner laboratories.

Formation et compétences requises :
Master/engineering school in signal processing, telecommunication, data sciences, statistics, mathematics, computer sciences …

Adresse d’emploi :
52 Av. Escadrille Normandie Niemen, 13013 Marseille

Document attaché : 202202221036_Thesis-SatCom-FSO-English(1).pdf

Categories: theses

Ph.D. Position: Learning Spatio-temporal data by graph representations