Interprétation granulaire de données hétérogènes et multivariées

When:

02/05/2022 – 03/05/2022 all-day

2022-05-02T02:00:00+02:00

2022-05-03T02:00:00+02:00

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIB (Laboratoire d’Informatique de Bourgogne) EA7
Durée : 36 mois
Contact : ana-maria.roxin@u-bourgogne.fr
Date limite de publication : 2022-05-02

Contexte :
Priorité du gouvernement français, la lutte contre le trafic de stupéfiants est, d’une part, un enjeu de santé publique, avec chaque année, dans le monde, en moyenne 168 000 décès directement causés par l’usage de la drogue, et, d’autre part, un enjeu de sécurité, puisqu’il entraîne une dégradation des conditions de vie et des violences dans les quartiers touchés. Le ministre de l’Intérieur a placé, dès le mois de juillet 2020, ce combat contre la drogue parmi ses 3 priorités. Les connaissances des produits qui circulent en France sont rassemblées dans la base de données nationale STUPS© (Système de Traitement Uniformisé des Produits Stupéfiants) du ministère de l’Intérieur. Cette base contient des données hétérogènes et multivariées : des données macroscopiques (e.g. logos, dimensions), qualitatives (e.g. noms des agents de coupage), quantitatives (e.g. teneurs en principes actifs), mais également des données d’enquête non confidentielles (e.g. quantités saisies, date et lieu de saisie sur le territoire français). Créée en 1986, la base STUPS© est alimentée par les 5 laboratoires de Police Scientifique du Service National de Police Scientifique (SNPS) et par l’Institut de Recherche Criminelle de la Gendarmerie Nationale, et contient aujourd’hui environ 10 millions d’entrées. Présenté en septembre 2019, le Plan Stup français prévoit une série de 55 mesures, dont “La mise en place de nouveaux indicateurs pour connaître les usages des consommateurs, les méthodes des trafiquants et anticiper leurs évolutions”. Or, la structure inhérente de la base STUPS© et les caractéristiques des données contenues ne permettent pas d’en extraire des connaissances (interprétation par une machine), afin de pouvoir identifier, expliquer et prédire les usages des consommateurs et les méthodes de trafiquants.

Sujet :
Il s’agit de proposer un système intelligent pour répondre aux défis liés à l’interprétation de données hétérogènes et multivariées (modèles linéaires et non-linéaires) contenues dans la base de données STUPS© afin d’en décrire, comprendre et expliquer les connaissances implicites. Les travaux de recherche visés dans cette thèse concernent le domaine de l’Intelligence Artificielle (IA), et s’orienteront sur deux aspects fondamentaux : IA symbolique (modèles de connaissances définissant les sémantiques – Motik et al., 2012 – et autres aspects symboliques permettant d’interpréter et de raisonner sur ces connaissances – Motik 2006), d’une part, et, IA statistique (modèles d’apprentissage automatique de type réseaux artificiels de neurones – Bishop 1995 – permettant de construire des prédictions), d’autre part. Les recherches envisagées exploreront l’articulation de ces approches IA avec des approches granulaires (Mani 1998). En effet, selon Hobbs (Hobbs 1985), la capacité de conceptualiser le monde à différents niveaux et de bénéficier d’une mobilité totale entre ces niveaux est une caractéristique exclusive de la résolution humaine de problèmes. En effet, lorsque nous regardons le monde qui nous entoure nous n’en retirons que les choses qui servent nos intérêts du moment. Dans le cadre de cette thèse, nous investiguerons l’application de la théorie de la granularité de Hobbs au modèle de connaissances constitué, afin de permettre un raisonnement à différents niveaux de granularité.
Les problématiques de recherche adressées sont :
– comment intégrer de manière consistante et cohérente au sein d’une base de connaissances (ontologie) des données hétérogènes et inconsistantes dans le temps ?
– comment exploiter des résultats obtenus d’algorithmes d’apprentissage automatique pour améliorer la description des connaissances ?
– comment interpréter et raisonner sur les données ainsi intégrées de manière à déduire de nouvelles connaissances ?
– comment maximiser l’efficacité de l’approche ainsi spécifiée ?

Profil du candidat :
La maîtrise de la langue française est indispensable (niveau min. C1). Un bon niveau en communication anglaise est un plus. Les candidats doivent avoir un intérêt pour la recherche.

Formation et compétences requises :
Les candidats doivent être titulaires d’un diplôme d’ingénieur informatique ou d’un Master 2 en informatique.
Constituent un plus des compétences en ingénierie des connaissances (Web sémantique, ontologies) et/ou data science.

Adresse d’emploi :
9 avenue Alain Savary, 21000 Dijon, FRANCE

Document attaché : 202204221103_MESRI_LIB_2022_FR_EN.pdf

MaDICS

Masses de Données, Informations et Connaissances en Sciences

Big Data - Data Science

Interprétation granulaire de données hétérogènes et multivariées