Cadre de thèse de doctorat pour la Chaire « Smart Intelligence » de l’ESILV

When:

31/08/2019 – 01/09/2019 all-day

2019-08-31T02:00:00+02:00

2019-09-01T02:00:00+02:00

Annonce en lien avec l’Action/le Réseau : RoDFormation

Laboratoire/Entreprise : DVRC / ESILV
Durée : 36 mois
Contact : nicolas.travers@devinci.fr
Date limite de publication : 2019-08-31

Contexte :
Les outils de veille technologique et stratégique permettent de délivrer des services de recherches d’information et de notifications de données ciblées, que ce soit en direct ou en temps réel. Ces données ciblées correspondent à des évolutions technologiques visibles sur le Web pour lequel un expert du domaine souhaite rester au courant de la concurrence ou des usages dans son périmètre.
La difficulté pour ces outils de veille est de devoir traiter d’une part les données avec à la fois la multitude de domaines d’expertise pour répondre à la demande des experts, acquérir et gérer un grand volume de données à récupérer sur le Web, analyser le contenu des informations pour en ressortir de la pertinence. Et d’autre part, gérer le profil des experts sur leurs usages de recherche, d’interactions avec la plateforme de veille, mais également les connaissances de l’expert sur son environnement, comme sa propre base de connaissances ou un réseau d’experts.
La société Coexel se positionne dans ce domaine de la veille technologique & stratégique en proposant la plateforme MyTwip dédié à ne nombreux domaines d’expertise, avec un moteur de recherche dédié, intégrant des analyses sémantiques basées sur une ontologie pour classifier automatiquement les informations par domaines d’expertise, du traitement de textes pour identifier des signaux faibles pour détecter ces évolutions technologiques pertinentes, ou de l’extraction de connaissances pour relier les concepts liés à une information.

Sujet :
Afin de mieux intégrer l’expert dans le processus de veille, nous envisageons d’intégrer le profil utilisateur, l’expert, au sein même de l’environnement de recherche à différents niveaux. En effet, en intégrant ses recherches ainsi que les interactions effectuées, l’intégration de ses connaissances, un réseau social reliant les experts par affinités de domaines, le tout pouvant produire des informations en temps réel, cela donne une dimension complexe à l’environnement d’analyse et de définition de la pertinence. En effet, il est nécessaire de se focaliser sur la notion de distance entre un expert et la donnée ciblée. Ce profil a pour conséquence de redéfinir cette distance pour l’adapter à l’utilisateur et permettre à l’expert de recevoir des informations plus pertinentes.
La complexité de cette approche réside dans la combinaison de critères :
• Le système doit traiter la donnée à la fois à la demande (moteur de recherche) et en temps-réel : il est donc nécessaire de délivrer une information dans une architecture Lambda (Marz et Warren 2015) tout en respectant la pertinence. Dans cet environnement, le Batch Layer stocke l’ensemble des données utiles (information et profil) permettant d’effectuer des recherches pertinentes à la demande, tandis que le Speed Layer doit maximiser le profil utilisateur pour traiter le flux de données en temps réel pour générer des notifications pertinentes.
• La pertinence d’une information, que ce soit dans la Batch ou Speed Layer, repose sur la combinaison subtile de plusieurs critères : des recherches étendues (sémantique, taxonomies, proximité, etc.) et des profils des experts complexes (historiques, réseau, etc.). Cela nécessite la définition d’une distance adaptée entre la donnée et la requête utilisateur, rentrant dans le cadre de la réécriture de requêtes (He, et al. 2016, Grbovic, et al. 2015), afin de produire des résultats pertinents à l’utilisateur. Le profil des experts repose sur plusieurs dimensions : l’historique des données précédemment lues/étiquetées/consultées (données explicites vs implicites), un réseau social d’experts impliquant une propagation de l’information basé sur la proximité d’intérêt, un graphe de connaissances dédié par expert regroupant les informations proches pour représenter les besoins de l’expert sous formes de « concepts » (Wang, Tan et Zhang 2010, Grossetti, et al. 2018). Il est à noter que ces dimensions peuvent être incomplètes, impliquant une adaptabilité pour la réécriture de requêtes. De plus, les usages des experts évoluant au cours du temps, la pertinence des résultats peut se dégrader. Il est nécessaire de rendre ces mesures auto-adaptatives pour leur permettre améliorer la qualité des résultats.
• Les notifications produites par la Speed Layer, doivent être traité en temps réel et prendre en compte plusieurs critères : la temporalité de l’information (un expert s’intéresse aux données récentes), la nouveauté de l’information (pas de redondance), la mutualisation des recherches de nombreux experts ayant souscrits au système. Le domaine du Publish/Subscribe répond à ce besoin en optimisant en temps réel les recherches par pertinence et nouveauté (Travers et du Mouza 2018). Les systèmes de recommandations répondent également à la question tout en peinant à répondre au problème de la temporalité des données (Ludmann 2015, Siddiqui, et al. 2014, Subbian, Aggarwal et Hegde 2016).
Ainsi, la croisée de ces différents critères produit un système complexe dont le mélange particulier a pour but de produire des informations pertinentes aussi bien par recherche à la volée qu’en temps-réel. Cette combinaison subtile n’est pas traitée dans la littérature, en effet nous comptons pouvoir produire des recommandations pertinentes de manière efficace en temps réel avec des profils multidimensionnels en se basant à la fois sur des historiques d’événements et sur des graphes de connaissances ou un réseau social.
Ce défi à relever repose sur certains verrous que nous devons soulever :
• Définir une mesure de pertinence de recommandations reposant sur un profil utilisateur riche, reposant sur son historique étendu (données explicites & implicites), son réseau social et son graphe de connaissances ;
• Définir un système optimisé pour la recherche d’information et la recommandation de veille technologique, combinant temps-réel et traitements lourds pour des milliers d’expert.

Profil du candidat :
Le candidat devra bien connaître le développement informatique, avec des connaissances en Web, Web sémantique, Recherche d’information et bases de données.

Formation et compétences requises :
BAC+5 Informatique
– Web sémantique
– Recherche d’information et/ou TAL
– Bases de données : centralisées. Connaître les bases distribuées est un plus.
– Théorie des graphes

Adresse d’emploi :
Coexel – Palais Realtor
203 Avenue Colonel Fabien
83000 TOULON

Document attaché : These_Coexel_v1.pdf

MaDICS

Masses de Données, Informations et Connaissances en Sciences

Big Data - Data Science

Cadre de thèse de doctorat pour la Chaire « Smart Intelligence » de l’ESILV