Détection de signaux faibles et évolution incrémentale des modèles de prédiction – Application à la

When:
30/06/2020 – 01/07/2020 all-day
2020-06-30T02:00:00+02:00
2020-07-01T02:00:00+02:00

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Entreprise PRO-BTP / Laboratoire I3S (équipe Inria
Durée : 3 ans
Contact : michel.riveill@univ-cote-dazur.fr
Date limite de publication : 2020-06-30

Contexte :
L’arrivée à maturité du Big Data permet de lutter plus efficacement contre la fraude. Dans ce domaine, le régime obligatoire a détecté 231,5 millions d’euros de prestations frauduleuses en 2015 ayant pour origine principale les Professionnels de Santé (opticiens, pharmaciens, auxiliaires médicaux, médecins, etc.) et les établissements.
Dans un contexte où diminuer les frais de gestion est un réel enjeu pour les assureurs complémentaires de santé, la lutte contre la fraude est une réelle attente des clients des professionnels du secteur afin que chacun perçoive le juste retour de ses contributions.

PRO BTP qui possède déjà un outils modulaire basé essentiellement sur des règles métiers par secteur souhaite étudier d’autres approches afin d’en évaluer leurs pertinences.

Sujet :
Objectif

A partir des données collectées par PRO BTP, l’objectif de cette thèse doit permettre de construire un modèle à bases de réseaux de neurones complémentaire aux détecteurs de fraudes actuellement utilisés afin de valider l’approche.

De par les caractéristiques du domaine, nous mettrons plus particulière l’accent sur la nécessité d’une approche partiellement supervisée, la détection des signaux faibles et l’incrémentalité des modèles.

– Approche partiellement supervisée : si les fraudes connues permettent d’avoir des données étiquetées, un des objectifs de l’architecture à proposer est d’être capable de détecter de nouvelles formes de fraudes non encore identifiées.
– Détection des signaux faible et pertinence du modèle : il est admis qu’environ 6 % des fraudes ne sont pas détectées mais aussi qu’environ 40 % des fraudes actuellement non détectées correspondent en fait à des faux-positifs. Un des objectif du travail est d’améliorer les résultats sur ces deux critères.
– Incrémentalité des modèles : le comportement des fraudeurs évolue au fil du temps bien souvent parce que l’environnement général évolue que ce soit une nouvelle législation, l’apparition de nouveaux outils ou tout simplement l’ouverture d’un nouveau marché. Il est évident que le prédicteur doit être capable de détecter ces nouveaux comportements et de s’adapter à ces situations nouvelles.

Organisation des travaux de recherche

Après une première phase consistant à bien comprendre la nature des données traiter et le mode de fonctionnement de l’approche actuellement utilisée, il s’agira de définir un premier modèle de clusterisation multiples permettant de regrouper les données en différentes catégories et de regarder si celles-ci correspondent au profil déjà connu [1, 2]. Une fois éliminé les classes correspondant à des comportements déjà connues, il s’agira d’analyser avec plus de précision les classes contenant des comportements mixtes [3, 4, 5]. La troisième étape consistera à intégrer une notion de temporalité afin d’apprendre les nouveaux comportements et peut-être donner un peu moins de poids aux plus anciens ne correspondant plus, par exemple, au cadre législatif actuel [6, 7, 8].

Bibliographie
1. Vincent Brault, Mahendra Mariadassou. Co-clustering through Latent Bloc Model: a Review. Journal de la Société Française de Statistique, Société Française de Statistique et Société Mathématique de France, 2015, 156 (3), pp.120-139. ⟨hal-02088216⟩
2. Etienne Côme, Pierre Latouche, Nicolas Jouvin, Charles Bouveyron. Hierarchical clustering with discrete latent variable models and the integrated classification likelihood. 2020. ⟨hal-02530705⟩
3. Johnson, J.M., Khoshgoftaar, T.M. Survey on deep learning with class imbalance. J Big Data 6, 27 (2019). https://doi.org/10.1186/s40537-019-0192-5
4. Herland M, Khoshgoftaar TM, Bauder RA. Big data fraud detection using multiple medicare data sources. J Big Data. 2018;5(1):29. https://doi.org/10.1186/s40537-018-0138-3.
5. Bauder RA, Khoshgoftaar TM. The effects of varying class distribution on learner behavior for medicare fraud detection with imbalanced big data. Health Inf Sci Syst. 2018;6(1):9. https://doi.org/10.1007/s13755-018-0051-3.
6. Casalino, Gabriella & Castellano, Giovanna & Mencar, Corrado. (2019). Credit card fraud detection by dynamic incremental semi-supervised fuzzy clustering. 10.2991/eusflat-19.2019.30.
7. Mohammed, Rafiq & Wong, Kok-Wai & Shiratuddin, Mohd Fairuz & Wang, Xuequn. (2019). Improving fraud prediction with incremental data balancing technique for massive data streams.
8. Junting Zhang, Jie Zhang, Shalini Ghosh, Dawei Li, Serafettin Tasci, Larry Heck, Heming Zhang, C.-C. Jay Kuo, Class-incremental Learning via Deep Model Consolidation, WACV 2020, arXiv:1903.07864

Profil du candidat :
Nous recherchons un étudiant motivé et talentueux qui possède de bonne capacité de communication scientifique (oral/lecture/écriture), une forte autonomie et intéressé par une thèse se déroulant dans un contexte industriel.

Formation et compétences requises :
Master en apprentissage machine/sciences des données ou probabilités/statistiques
Expérience de programmation avec Python
L’expérience des boîtes à outils Tensorflow-Pytorch-Keras
Gestion de projet : GitHub

Adresse d’emploi :
Entreprise : PRO BTP, Cagnes sur mer
Laboratoire : Equipe Inria-I3S-LJAD MAASAI, Sophia Antipolis