Explainable and Multi-Modal DL/ML Models for Extreme Narrative Detection in the Online Social Discourse.

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : ETIS (equipe REMI) / AGORA
Durée : 3 ans
Contact : michele.linardi@cyu.fr
Date limite de publication : 2023-06-15

Contexte :
Increased polarization triggered by social protest movements, the Covid-19 crisis and the war in Ukraine are historical events that have recently favored extremist narratives in public and online debates.
Extremist (a.k.a Extreme) narratives (EN) constitute counter-narratives in the sense that they challenge mainstream worldviews and social interpretations of major events in many kinds of public debate e.g., social media, parliamentary interventions, journals, books, and many others. This thesis offer is integrated in the context of the Horizon Europe ARENAS project (Grant agreement ID: 101094731), coordinated by CY Cergy Paris Université, and aims to contribute to Work Package 2 dedicated to the definition, identification and detection of extremist narratives. (https://cordis.europa.eu/project/id/101094731).

Sujet :
In this Ph.D. thesis, we want to study the EN characterization, modeling and automatic detection. Specifically, we note that the extremist narratives analysis should not only be seen from a radicalization/terrorism viewpoint, for which a rich Machine Learning (ML) literature already proposes multiple solutions. We observe that EN must be studied in a more general context that concerns different kind of values such as people democracy, citizenship, rights, etc., which do not necessarily assume a violent or hatred sentiments.
EN modeling cannot be only isolated to violent and extreme language features, but it must also consider a wider spectrum of narrative elements such as the beliefs, traits, practices of a collectivity, etc. that identifies a group of people sharing the same identity.

The principal thesis objective is to propose new (DL/ML) tools that characterize extremist narratives in corpora from different contexts (social media, political debates, transcripts, etc.).
We argue that EN modeling choice is not only restricted to text but must effectively consider other types of data, i.e., Graphs, Images, and Knowledge Base. In this case, we want to focus on multi-modal knowledge extraction, which is a challenging topic in Machine Learning.
The existing multi-view machine learning approaches usually are not adapted for multi-modal data or use the same similarity/distance measure for all the views.
A crucial objective of our research is to propose novel multi-modal knowledge extraction methods to detect extremism narratives and characterize them.

The successful candidate will work in close collaboration with language experts (from Heinrich Heine University of Düsseldorf and from Institute of Contemporary History-Ljubjana University) that will provide linguistic expertise and validation, along with labelled corpora from heterogeneous online (multi-modal) content. Interactions will be made with work already in progress at Cergy on forensic linguistics, the analysis of fake news, and digital discourse in a political context.

Profil du candidat :
Applicants should contact via email Michele Linardi (michele.linardi@cyu.fr), Julien Longhi (julien.longhi@cyu.fr) and Nistor Grozavu (nistor.grozavu@cyu.fr) with:

• A full curriculum vitae, including a summary of previous research experience.
• A transcript of higher education records.
• A one-page research statement discussing how the candidate’s background fits the proposed topic.
• Two support letters of persons that have worked with them.

The deadline of the application is: June 4th, 2023 (11h59 pm AoE).

Formation et compétences requises :
The candidate must fit the following requirements:

– Master’s degree in computer science or data science.
– Advanced programming skills in Python (C++/Java is a plus).
– Strong mathematical background, including Linear Algebra and Statistics.
– Research experience in Machine learning, Deep Learning and Data Mining.
– Fluency in written and spoken English is essential.

Adresse d’emploi :
CY Cergy Paris Université
33 bd Port, 95000 Cergy

Document attaché : 202305170940_ThesisProposal_full.pdf

Post-Doc – Fouille de motifs fréquents pour l’analyse de comportement touristique circulatoire

Offre en lien avec l’Action/le Réseau : DOING/– — –

Laboratoire/Entreprise : DVRC/ESILV
Durée : 12 mois
Contact : nicolas.travers@devinci.fr
Date limite de publication : 2023-07-12

Contexte :
L’appréciation des visites effectuées par les touristes est un enjeu majeur dans le monde du tourisme afin d’anticiper les évolutions de tendances, mais aussi la manière dont ils circulent sur le territoire. Une approche permettant d’estimer cette appréciation est de reposer sur l’extraction de motifs fréquents sur un graphe de circulation, comme l’extraction de Graphlet [1], k-decomposition [2], ou encore les structures cohésives comme les k-plex [6]. Ainsi, les tendances touristiques sont extraites grâce à leurs fréquences d’apparition de manière topologique.
Toutefois, les données touristiques provenant de sites prescripteurs d’expérience, tels que TripAdvisor, donnent lieu à des volumes difficiles à intégrer dans les techniques traditionnelles de fouille de données. En effet, avec un grand nombre de lieux visité (millions), et un nombre énorme de commentaires laissés par les utilisateurs (milliards), il est nécessaire de développer une nouvelle approche pour le passage à l’échelle d’algorithmes basés sur les graphes. De plus, la compréhension du territoire se fait également par l’analyse du graphe à plusieurs échelles.

Sujet :
Pour ce faire, au sein du groupe digital du DVRC, nous travaillons sur le développement en Pregel [3] de différentes approches existantes pour pouvoir définir la meilleure stratégie de fouille de motifs tout en les adaptant à des problématiques de résumer de graphes à différentes échelles. De plus, l’aspect géodésique des données est un facteur important lié à la topologie des données [4, 5, 7], tout autant que la fréquentation. Nous étudions donc l’adaptation des méthodes existantes pour améliorer l’efficacité de la fouille de motifs basée sur ces informations [8, 9, 10, 11].
Ce postdoctorat est financé grâce à un projet lié à la Métropole Européenne de Lille (MEL2). Dans ce cadre, nous collaborons avec la Métropole et l’ADULM pour les questions métiers, mais surtout avec le laboratoire EIREST de Panthéon-Sorbonne sur la recherche en géographie liée au tourisme. Un autre postdoctorant sur ces aspects a déjà débuté ses travaux et sera en interaction avec le candidat. Le but étant d’apporter de la transdisciplinarité dans ces travaux en intégrant les questions métiers du tourisme au sein même des stratégies de fouille de motifs. Nous accorderons aussi une importance à l’interprétation des résultats pour traduire les motifs pour la compréhension des comportements touristiques sur le territoire Lillois. Pour finir, les données pourront être complétées avec des informations multidimensionnelles disponibles au sein du projet MEL2 (Booking, Airbnb, Observatoire du tourisme à la MEL, etc.).
Le but de ce postdoc est donc multiple :
– Intégrer des méthodes de fouille de motifs dans une base de données Neo4j (en Pregel/Java) ;
– Améliorer une méthode pour donner une heuristique de fouille adaptée au contexte géodésique ; – Traduction des motifs fréquents sur un comportement touristique à différentes échelles ;
– Développement sur la plateforme eKhonsou avec données multidimensionnelles.

Profil du candidat :
Niveau Doctorat en informatique.

Formation et compétences requises :
Connaissances en bases de données, Data Mining, BD graph (Neo4j, Cypher), Java programmation répartie, node.js.

Adresse d’emploi :
Laboratoire de recherche De Vinci Research Center au sein de l’École Supérieure d’Ingénieurs Léonard de Vinci ; Paris, la Défense.

Document attaché : 202305151624_2023_PostDoc_GraphMining.pdf

CFP First Workshop on Conceptual design for Internet of Robotic Things @ER23 with Software and Systems Modeling Journal

Date : 2023-08-08
Lieu : Lisbon, Portugal

First Workshop on Conceptual design for Internet of Robotic Things (CD4IoRT)
To be held in conjunction with ER 2023 (https://er2023.inesc-id.pt)
November 6-9 2023
Lisbon, Portugal
https://pros.unicam.it/cd4iort

!!!!Selected regular papers will be invited to submit an extended version to the special session of Software and Systems Modeling Journal

************************************************************************
** GENERAL INFORMATION and GOAL OF THE WORKSHOP **

The objective of the First Workshop on Conceptual Desing for Internet of Robotic Things (CD4IoRT) is to foster the use of conceptual design in the Internet of Robotic Things (IoRT) domain. Thanks to the advantages brought into everyday human life, IoRT systems have emerged as key technologies with a wide range of applications, in many application domains, e.g., agriculture, manufacturing, industry, domotics, and health. However, the implementation and management of these systems require a broad set of skills. This knowledge gap can be closed by novel conceptual modeling and engineering approaches specific to these software systems. The workshop aims to be a point of contact for practitioners and researchers from Conceptual Modeling with other communities such as Software Engineering, Databases, Business Process Management, Distributed Systems, Formal Methods, and Information Systems where creating a dialogue centered on the development of scientific foundations in this topic. The workshop will foster the discussion of research works case studies, experiences, and industry showcases in order to set up joint activities and future research directions.

** LIST OF TOPICS **

We seek contributions covering all aspects of data modeling for IoRT data applications including, but not limited to, the following topics:

Conceptual modeling and languages for IoRT data
Model-driven engineering for IoRT systems
Low code methods for IoRT systems
Integration and querying IoRT data
Requirement engineering for IoRT systems
IoRT and Artificial Intelligence
Edge-Fog-Cloud architectures design
Data and QoS modeling
Real-time, NoSQL databases
Data stream management systems design
Embedded systems design
Real-life (Urban, agriculture, health, …) applications

** SUBMISSION INSTRUCTIONS **

Submissions should present original works not currently under review or published elsewhere.

This workshop accepts research and industrial papers:
Regular: 10 pages max.
Short: 6 pages max (Demostration, Vision, and Showcase papers)

All accepted papers will be published in the conference proceedings and will be submitted for inclusion.

Papers should be submitted in PDF format using the EasyChair online submission system (https://easychair.org/conferences/overview?a=30545729). Authors should consult Springer’s authors’ guidelines and use their proceedings templates, either for LaTeX or for Word, for the preparation of their papers.

!
** IMPORTANT DATES **
Abstract Submission: 02 August 2023
Acceptance Notification: 04 September 2023
Camera-Ready Papers: 20 September 2023

** WORKSHOP ORGANIZERS **

Sandro Bimonte, INRAE, France
Lorenzo Rossi, University of Camerino, Italy

** PUBLICATION **

The workshop papers will be published by Springer in LNCS series.

The authors of selected workshop regular papers will be invited to submit an extended version of their contributions to the special session “Model-based Engineering for Internet of Robotic Things Applications” of the Springer’s Software and Systems Modeling Journal


Notre site web : www.madics.fr
Suivez-nous sur Tweeter : @GDR_MADICS
Pour vous désabonner de la liste, suivre ce lien.

Ecole thématique “Masses de Données Distribuées”

Annonce en lien avec l’Action/le Réseau :

Thème :

Exploitation de données massives

Présentation :

L’école thématique CNRS MDD « Masses de données distribuées » est une école thématique récurrente ayant lieu tous les deux ans depuis 2010. Cette école est une émanation de la communauté des bases de données en France, structurée autour de la conférence BDA : Gestion de données – principes et applications, qui a fêté ses 30 ans d’existence en 2016. Si notre conférence est le lieu de rencontre de notre communauté, l’école thématique MDD permet d’exposer en détails des thèmes fondamentaux pour la compréhension de l’évolution de notre domaine de recherche, et de préparer les doctorant(e)s à suivre – et provoquer – ses évolutions.

Du : 2024-06-23

Au : 2024-06-28

Lieu : Ceillac

Site Web : https://cedric.cnam.fr/lab/confs/mdd2024/

Partage et analyse de données multi-points de vues pour la préservation du patrimoine culturel

Offre en lien avec l’Action/le Réseau : – — –/Doctorants

Laboratoire/Entreprise : LIAS, équipe IDDM, ISAE-ENSMA , Poitiers, Futurosc
Durée : 3 ans
Contact : baron@ensma.fr
Date limite de publication : 2023-05-27

Contexte :
Cette thèse se déroule dans le contexte du projet ANR Digitalis : https://digitalis.humanities.science/

Sujet :
L’objectif est de proposer une représentation numérique intégrée et des outils qui accompagneront la recherche archéologique. Ils faciliteront l’efficacité de la collecte et de la numérisation de données. Il devra permettre des raisonnements sur des objets du patrimoine en s’appuyant à la fois sur la collecte de données et sur la visualisation 3D de ces objets. La connaissance sera structurée via un modèle de connaissances qui facilitera le partage en s’appuyant sur des standards existants. Des techniques liées à l’apprentissage automatique pourront être utilisées pour inférer de nouveaux faits historiques.

Profil du candidat :
Le candidat doit détenir un diplôme de Master en Informatique ou un diplôme d’ingénieur spécialité Informatique.

Formation et compétences requises :
Une bonne connaissance de la programmation (Java, JavaScript et Python), des bibliothèques/frameworks (frameworks web, bibliothèque d’apprentissage automatique) et des solutions de stockage (stockage RDF et SGBDR) est requise. Un bon niveau en français et en anglais est fondamental. Une motivation pour le domaine historique est fortement recommandée.

Adresse d’emploi :
Poitiers, Futuroscope

Document attaché : 202305150802_Digitalis_thesis_2023_fr.pdf

Stockage de données numériques dans de l’ADN synthétique – Grandes avancées et défis à relever

Annonce en lien avec l’Action/le Réseau :

Thème :

Stockage des données

Présentation :

L’objectif de cette journée est de faire le point sur les avancées technologiques et les grands défis à relever dans le domaine du stockage moléculaire. La journée débutera par deux tutoriels d’introduction au sujet, avant de se poursuivre par des exposés plus techniques. Cette journée est organisée par le GDR ISIS, mais est ouverte aux GDR MADICS et BIM dans le but de fédérer une communauté interdisciplinaire autour de cette thématique.

Du : 2023-07-03

Au : 2023-07-03

Lieu : Jussieu, Paris

Site Web : https://www.gdr-isis.fr/index.php/reunion/492/

Machine Learning for EArth Observation Data (Workshop @ECML/PKDD2023)

Annonce en lien avec l’Action/le Réseau :

Thème :

Machine Learning for Earth Observation Data

Présentation :

This workshop aims to be an international forum where machine learning researchers and domain experts can meet each other to exchange, debate, and draw short and long-term research objectives around the exploitation and analysis of EO and atmospheric data via Machine Learning techniques. Among the workshop’s goals, we want to give an overview of the current machine-learning research dealing with EO and other atmospheric measurement data. On the other hand, we want to stimulate concrete discussions to pave the way to new machine learning frameworks especially tailored to deal with such data.

Du : 2023-09-18

Au : 2023-09-18

Lieu : Torino, Italy, 2023

Site Web : https://sites.google.com/view/maclean23/

Estimation de l’uplift dans les systèmes de recommandation d’offres

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Innovation Orange (Lannion) et GREYC CNRS UMR 6072
Durée : 3 ans
Contact : bruno.cremilleux@unicaen.fr
Date limite de publication : 2023-08-31

Contexte :
Pour candidater :
déposer votre candidature à
https://orange.jobs/jobs/v3/offers/124860?lang=fr

Les systèmes de recommandation d’offres tels que les NBO (Next Best Offer) sont de plus en plus courants dans les entreprises comme Orange qui cherchent à améliorer leurs relations avec les usagers de leurs services. On propose aux clients ou visiteurs une action personnalisée en fonction de leurs profils et de leurs préférences. Cependant, le traitement personnalisé en recommandant une offre sur ces critères ne suffit pas toujours à satisfaire un client. Il est donc important pour les entreprises de mesurer l’uplift [1], c’est-à-dire la différence de revenu ou de satisfaction entre les choix que le client aurait effectué sans recommandation et ceux qu’il effectue avec recommandation. Le défi des systèmes de recommandation d’offres est donc de trouver des algorithmes pour mesurer l’uplift et estimer des politiques du système de recommandation efficaces. Le choix de la mesure d’uplift et de la modélisation de la politique du système est un enjeu important pour maximiser l’impact des actions. Une difficulté intrinsèque de l’uplift est qu’on ne peut pas faire un traitement et un non-traitement pour un même individu. Ce qui implique que l’uplift ne peut pas être mesuré directement pour un individu mais uniquement pour un groupe d’individus, ce qu’on appelle le CATE (Conditional Average Treatment Effect). Hors la mesure du CATE dans un système ou les profils changent selon le traitement que l’on veut faire devient difficile à estimer [4]. De plus, les biais entre les données issues de différents traitements biaisent la mesure de CATE. La littérature propose différentes approches pour résoudre ce problème. Certaines visent à débiaiser les données et utiliser un estimateur robuste [2] et d’autres à utiliser directement les approches causales [5].

Sujet :
L’objectif de la thèse consiste à proposer de nouvelles métriques d’évaluation et des méthodes de modélisation pour l’uplift dans un système de recommandation d’offres. Les défis principaux défis sont l’évaluation de l’uplift dans un système de recommandation et l’apprentissage de politique de recommandation optimisant l’uplift dans un contexte de données biaisées. On s’intéressera en particulier aux approches causales [3, 5] et approche bayésienne connues [2] pour leur robustesse.

[1] Sato Masahiro et al. “Uplift-based evaluation and optimization of recommenders”, proceedings of the 13th ACM Conference on Recommender Systems, 2019.
[2] Rafla Mina, et al. “A Non-Parametric Bayesian Approach for Uplift Discretization and Feature Selection”, ECML PKDD 2022.
[3] Verlelst Théo et al. “Partial counterfactual identification and uplift modeling: theoretical results and real-world assessment”, Machine Learning, 2023, p. 1-25.
[4] Qian Xufeng et al. “Intelligent Request Strategy Design in Recommender System”, proceedings of the 28th ACM SIGKDD 2022.
[5] Bang Heejung et Robins James M. “Doubly robust estimation in missing data and causal inference models”, Biometrics, 2005.

Profil du candidat :
Le profil souhaité est BAC + 5, école d’ingénieur ou Master Recherche statistiques et/ou mathématiques appliquées et/ou data sciences.

Formation et compétences requises :
– la doctorante ou le doctorant devra avoir une bonne connaissance des statistiques et des mathématiques.
– des connaissances en apprentissage machine sont un réel plus.
– des compétences en programmation sont indispensables : maîtrise d’un langage de script dédié à l’analyse de données (Python, éventuellement R ou Matlab).
– une forte motivation, des capacités de synthèse, à bien rédiger et présenter les travaux (anglais) et à s’intégrer dans une équipe sont également demandées
– une expérience sous la forme d’un stage de recherche dans le domaine statistique/ apprentissage machine.

Adresse d’emploi :
Innovation Orange (Lannion) et laboratoire GREYC CNRS UMR 6072 (Caen)

Au sein de Innovation Orange, vous serez intégré(e) dans une équipe de recherche à la pointe de l’innovation et de l’expertise en Machine Learning travaillant sur diverses thématiques, comme par exemple les modèles génératifs, le traitement de séries temporelles, l’IA éthique et la modélisation de l’Uplift. Vous ferez partie d’un écosystème de recherche côtoyant les unités opérationnelles, ayant pour but de développer des algorithmes à la pointe et de les diffuser dans le groupe.

Sujet porteur permettant l’évolution vers les métiers de la recherche en apprentissage artificiel ou de la data-science

Valorisation des travaux via la collaboration au développement d’une librairie open source python sur la modélisation de l’uplift (Kuplift).

Salaire : Vous percevez une rémunération annuelle brute de 33 848 € en 1ère et 2ème année et de 38 480 € en troisième année.

Pour candidater :
déposer votre candidature à
https://orange.jobs/jobs/v3/offers/124860?lang=fr

[Poste Doc / Poste Ingé.] : Caractérisation électromagnétique de cible Radar. Application à la Détection et à l’identification d’objets

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : ENSTA Bretagne Lab-STICC UMR CNRS 6285
Durée : 24 mois
Contact : jean-christophe.cexus@ensta-bretagne.fr
Date limite de publication : 2023-08-31

Contexte :
Cette étude s’insère dans le cadre de la caractérisation et la description fine d’une cible mobile pour des applications de détection, de localisation et de suivi de petites cibles dans le domaine Radar.
Plus précisément, en combinant les aspects physiques et des méthodes de traitement du signal, il s’agit de développer une méthodologie permettant, dans une problématique de reconnaissance, de prendre en compte et d’exploiter les déformations des objets mobiles (comme le fait, par exemple, les pales d’un hélicoptère produisent des ‘flashs’ très localisés en temps et en fréquence).

Salaire : entre 1820 € et 2008 € net mensuel selon expérience
Date de début : le plus tôt possible
Durée du contrat : 24 mois

Candidature
Envoyer un CV, une lettre de motivation et recommandations(s) à :
– ali.khenchaf@ensta-bretagne.fr
– jean-christophe.cexus@ensta-bretagne.fr

Sujet :
Dans un premier temps, il s’agit de poursuivre l’étude bibliographique sur la problématique indiquée ci-dessus. En particulier, lors d’une liaison d’observation fonctionnant pour une fréquence donnée, il est utile d’analyser les phénomènes mis en jeux lors de l’interaction des ondes émises avec une cible (fixe ou en mouvement ou dont certaines parties sont en mouvement) présente dans la zone d’intérêt. En s’appuyant sur les références disponibles en interne et/ou dans la littérature ouverte, il s’agit de poursuivre le panorama de certaines méthodes utilisées dans la modélisation, l’analyse et le traitement des spécificités d’une cible en mouvement présentant des éventuelles déformations observée par un capteur radar spécifique (fréquence, portée, géométrie d’observation, polarisation, …).
Dans un deuxième temps, il s’agit de poursuivre le développement de méthodes retenues dans la phase de recherche précédente. La mise en pratique des techniques retenues sera effectuée dans le contexte de la télédétection radar. Pour mieux cerner les variations de la signature de la cible en fonction de différents paramètres liés à la cible ou au capteur, un premier traitement sera consacré à une cible isolée. Ensuite, la méthodologie développée sera dédiée au cas d’une cible (ou plusieurs) présente dans un environnement contraint. Enfin, il sera question d’analyser l’apport de la prise en compte des différents phénomènes mis en jeux dans un contexte d’amélioration de la reconnaissance de cibles mobiles déformables non-coopératives.
Mots clés
Propagation des ondes EM, signatures EM, cibles fluctuantes, méthodes (asymptotiques, exactes, …), micro-doppler, méthodes temps-fréquence, détection, suivi, reconnaissance, identification.

Profil du candidat :
Ce poste est ouvert aux titulaires d’un diplôme d’ingénieur ou d’une thèse de doctorat dans l’un des domaines indiqués dans les objectifs.

Formation et compétences requises :
les compétences ci-dessous seront appréciées :
• Propagation et interactions des ondes électromagnétiques avec des objets
• Calcul et simulation scientifique
• Traitement du signal
• Facilités en programmation informatique : Matlab, Python, …
Des connaissances dans le domaine de traitement de données, du Machine Learning seraient un plus.

Adresse d’emploi :
ENSTA Bretagne, 2 Rue François Verny, 29806 Brest Cedex 09

Localisation du poste
Le poste est localisé à l’ENSTA Bretagne au sein du département STIC. Celui-ci compte une centaine de personnes dont une quarantaine de permanents. Les thématiques d’enseignements se retrouvent principalement dans les spécialités des systèmes d’observation (acoustique, électromagnétique, …), hydrographie, la robotique, l’intelligence artificielle, la modélisation logicielle et la sécurité des systèmes (cyberdéfense). Les enseignants-chercheurs du département sont, pour la grande majorité, membres du Lab-STICC (Laboratoire des Sciences et Techniques de l’Information, de la Communication et de la Connaissance, UMR CNRS 6285) dont l’ENSTA Bretagne est tutelle. Le laboratoire structure la recherche « des capteurs à la connaissance » en Bretagne océane et regroupe plus de 500 personnes dont 220 chercheurs du CNRS ou des établissements ENIB, ENSTA Bretagne, IMT Atlantique, UBO et UBS.

Document attaché : 202305110903_Fiche_Poste_Radar_VF.pdf

Combining Knowledge graph embedding and prior knowledge based semi-supervised learning for ontology learning from large scale data.

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : DUKe, LS2N (Laboratory of Digital Sciences of Nan
Durée : 3 years
Contact : Fabrice.Guillet@univ-nantes.fr
Date limite de publication : 2023-08-31

Contexte :
PhD Description

Background. The popularity of ontologies and the easy access to a large number of textual resources have strongly motivated the automatic construction of ontologies using artificial intelligence techniques. Three types of construction approaches are distinguished: distributional approaches, knowledge graph-based approaches and pattern-based approaches [Xu et al., 2019, Chen et al. 2020]. In this thesis, we will focus on distributional approaches and more specifically on clustering and graph-based approaches. Generally, clustering allows to consider a large amount of data. However, it faces two main difficulties: the cluster labelling and the formation of semantically consistent clusters relevant to the ontology domain. In our previous work, we have developed a prior knowledge-driven LDA to tackle these two difficulties [Huang et al. 2021, Xu et al 2020]. However, clustering based approaches suffer also from the sparsity of the term representation space [Shwartz et al., 2016]. Graph-based approaches extract triples from texts (subject, predicate, object), then align and link them to form knowledge graphs (e.g. Yago, DBpedia). They allow to process a large number of texts and build very large graphs, but they suffer from the issue of data heterogeneity, because the same concept can be denoted by different terms in distinct triples and the same term can have several semantics [Nguyen and Ichise, 2012], [Kertkeidkachorn and Ichise, 2018].

Sujet :
Title: Combining Knowledge graph embedding and prior knowledge based semi-supervised learning for ontology learning from large scale data.

Keywords: Ontology learning, Knowledge Graph Completion, Prior Knowledge, Clustering, Relation Prediction, Knowledge Graph Embedding, Graph Neural Network.

Laboratory: DUKe, LS2N (Laboratory of Digital Sciences of Nantes, France) and a collaboration with NII & AIST (Tokyo, Japan)

Supervisors: Mounira Harzallah and Fabrice Guillet

CNRS financial support: 2135 € (gross salary)/month and a NII financial support for the Japan internship.

Start date: 1st of October

Duration: 3 years

Requirements:

-Education Level: MSc

-Field: Computer Science, Data Science, Web Science, Computational Linguistics, Artificial Intelligence

-Candidate Profile: Knowledge on Data mining/Machine Learning, Knowledge on Semantic Web and NLP will be strongly appreciated but not mandatory, Knowledge in programing languages mainly Python.

-Language: English

The application evaluation will be continuous until the position is filled. Interested candidates should submit : CV, cover letter, transcripts of records of the tree last years and names and addresses of two references. Applications should be submitted to mounira.harzallah@univ-nantes.fr and fabrice.guillet@univ-nantes.fr

PhD purpose.

The purpose of this thesis is to develop a new approach for automatic ontology construction combining semi-supervised clustering methods driven by prior knowledge (seed knowledge, local knowledge, domain knowledge, DBpedia,..) [Jagarlamudi et al. 2012, Xu et al. 2019, Huang et al, 2021] and knowledge graph embedding [Ebisu and Ichise, 2018]. This new approach will solve the scientific locks of data heterogeneity and data sparsity. By defining cluster terms by subgraphs and their vector embeddings, the problem of text sparsity can be addressed and the quality of clusters can be improved. In recent years, graph embedding has gained rapid growth [Zhang et al. 2020]. It aims to automatically learn a low-dimensional feature representation for each node in a graph. Graph embedding is used in the construction of machine learning models for various tasks, and our goal is to exploit them to improve ontology learning. The approach to be developed in this thesis will also infer hypernym relationships between terms within each cluster. The objective of this task is threefold: 1) to evaluate the quality of the clusters, 2) to refine their description space in an iterative clustering/extraction of hypernym relations/clustering approach, and 3) to evaluate and improve the quality of the exploited knowledge graphs from which term subgraphs are extracted.

The positioning and significance of this research

Since Ontology is crucial for AI applications, many research studies are working on ontology learning. However, they investigate the sparsity and the heterogeneous problem separately. The first originality of our research is to combine knowledge graph representation and prior-knowledge-driven clustering to solve simultaneously the sparsity and the heterogeneous problems. Knowledge graph and graph embedding deal with sparsity problem and prior knowledge-driven clustering deals with heterogenous problem.The second originality of our research is to enrich semantically the graph embedding by integrating prior knowledge from the core ontology in the process of embedding. Focusing on improving the embedding process itself, Sun et al [2020] show that embedding based approaches perform well when training is performed on the text corpus from which the graph is constructed. However, in the case where this corpus is unavailable or of small size, the graph embedding will be based exclusively on its structure, which weakens the performance of these approaches. In this case, in order to semantically enrich the graph embedding input, considering the semantics of certain entities or properties of the graphs could be relevant. This enrichment could be done using a domain ontology or its core ontology.

Therefore, we would like to develop an original approach benefiting on the one hand from the power of graph embedding techniques for the clustering of entities, and on the other hand from the semantic quality of ontology in order to drive and refine the learning. A core ontology will be used as a seed knowledge model to improve the quality of graph embedding as well as for clustering.

Profil du candidat :
Requirements:

-Education Level: MSc

-Field: Computer Science, Data Science, Web Science, Computational Linguistics, Artificial Intelligence

-Candidate Profile: Knowledge on Data mining/Machine Learning, Knowledge on Semantic Web and NLP will be strongly appreciated but not mandatory, Knowledge in programing languages mainly Python.

-Language: English

The application evaluation will be continuous until the position is filled. Interested candidates should submit : CV, cover letter, transcripts of records of the tree last years and names and addresses of two references. Applications should be submitted to mounira.harzallah@univ-nantes.fr and fabrice.guillet@univ-nantes.fr

Formation et compétences requises :
MSc in computer sciences with a good ranking

Adresse d’emploi :
Laboratory: DUKe, LS2N (Laboratory of Digital Sciences of Nantes, France) and a collaboration with NII & AIST (Tokyo, Japan)