Correction des biais dans le cadre de la modélisation de l’impact d’actions

When:
29/05/2020 – 30/05/2020 all-day
2020-05-29T02:00:00+02:00
2020-05-30T02:00:00+02:00

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Orange Labs Lannion
Durée : 3 ans
Contact : bruno.cremilleux@unicaen.fr
Date limite de publication : 2020-05-29

Contexte :
*Contexte de travail de la thèse*

– Orange Labs Lannion (Orange Labs est la division recherche et
développement du groupe Orange)
Equipe d’accueil (industriel): PROF (Profiling & Datamining)
Vous serez dans l’équipe de traitement statistique de l’information d’Orange Labs Lannion. Cette équipe spécialisée en machine learning, data mining et profiling, comporte une vingtaine de permanents, sur des sujets allant de la recherche aux applications opérationnelles, ainsi que 5 doctorants et post-doc.

*Directeur de Thèse (industriel)* :
Nicolas Voisine – nicolas.voisine@orange.com

*Laboratoire Universitaire d’accueil et Directeur de Thèse universitaire :*
GREYC CNRS UMR 6072
Bruno Crémilleux – bruno.cremilleux@unicaen.fr

*Début de la Thèse :* 2ème semestre 2020

*Mots clés* :
Classification, fouille de données, adaptation de domaine, Uplift

Sujet :
*Contexte global de la thèse*

La modélisation de l’Uplift, également connue sous le nom de individual treatment effect (ITE), est une technique de modélisation prédictive qui modélise directement l’impact incrémental d’un traitement sur le comportement d’un individu. Les applications sont multiples : gestion de la relation client pour la modélisation d’action de marketing direct, médecine personnalisée, publicité, élections politiques. Les modèles d’Uplift aident à identifier les groupes de personnes étant susceptibles de répondre positivement à une sollicitation marketing ou à un traitement médical.

Plus généralement, un modèle d’Uplift est un moyen de prédire, avec un certain taux d’erreur, l’impact d’un traitement sur le comportement de quelqu’un. Par exemple connaître la probabilité de changement de comportement d’un groupe de personnes après un contact. On comprend aisément l’intérêt de tels modèles pour un opérateur tel qu’Orange. Ça lui permettrait de comprendre et d’améliorer sa relation avec ses clients.

L’Uplift est caractérisé par des éléments clefs :
– une population d’intérêt et sa description (par exemple des variables descriptives des individus et/ou de leurs comportements passés) ;
– un delta qui résulte d’une mesure entre le résultat obtenu entre la présence ou l’absence d’un contact (par exemple Orange contacte ou pas le client) ;
– une modélisation : prédire la différence de comportement entre contact ou pas.

Une des difficultés inhérente à l’Uplift réside dans le fait que les données ne sont “étiquetées” que partiellement. Ainsi, il est impossible de savoir si le traitement choisi est optimal pour un sujet donné parce que les réponses aux traitements alternatifs ne sont pas observées. Une autre difficulté, liée à la prédiction, réside dans le fait qu’en pratique les données sont biaisées :
– les données de traitement et non traitement de l’ensemble d’apprentissage peuvent être différents ;
– les données d’apprentissage du modèle sont différentes de celles où le modèle est appliqué.

*Etat de l’art et verrous*

Dans le domaine de l’optimisation des traitements on expérimente en respectant un plan d’expérience des traitements pour choisir au mieux celui qui maximise un critère de performance. On retrouve ces techniques d’optimisation dans de nombreux domaines pour faciliter la prise de décision : bancaire, marketing, médical, sociologie et e-business. Ces techniques permettent de choisir le traitement optimal pour la population testée avec une certaine garantie statistique. Ces techniques recherchent à comparer l’expérimentation à des résultats alternatifs, on parle alors d’étude contrefactuelle ([7]).

Dans la littérature plusieurs études ont permis de répondre aux défis de la modélisation de l’Uplift. L’Uplift a d’abord été modélisé dans le cas du bi-traitement ([1][2]) puis en multitraitement [4]. D’autres travaux ont étudié l’évaluation des modèles d’Uplift ([3]).

Cependant 2 aspects primordiaux pour répondre à des problèmes opérationnels n’ont pas été suffisamment étudiés et restent des verrous :
– le premier provient du fait que l’Uplift devrait être modélisé sur des données expérimentales, c’est-à-dire des données dont leur génération est maîtrisée et pour lesquelles il n’y a pas de biais entre les données issues de différents traitements. Or, en pratique, on constate que les données sont de nature observationnelles et qu’il y a un biais, ce qui rend inopérantes les méthodes de modélisation d’Uplift. Pour exemple, la non réponse à un appel commercial amène un biais par rapport à ceux qu’on n’appelle pas.
– le second aspect vient du biais entre les données d’apprentissage et les données de déploiement. L’hypothèse classique est qu’il n’y a pas de biais. Or en pratique, il y a toujours un biais entre ces données. Pour exemple, les données de juin pour l’apprentissage différent des données de septembre pour utiliser le modèle.

Différents travaux s’approchent de ces problématiques :
– un axe de recherche concerne le mode batch de la modélisation, il est fondé sur le champ de recherche de l’adaptation de domaine ([6]) et de l’approche causale ([7]) ;
– un autre axe concerne le champ de recherche de l’apprentissage par renforcement ([5]).

*Objectifs de la thèse et travail*

L’objectif général de cette thèse est de spécifier, réaliser, étudier et évaluer un algorithme d’apprentissage d’Uplift prenant en compte le biais des données d’apprentissage et de déploiement. Cet algorithme aura des capacités d’apprentissage automatiques sur de grandes bases de données tout en ayant de très bonnes performances sur de petits échantillons.

La thèse apportera des contributions sur la modélisation de l’Uplift suivant deux axes majeurs et peu étudiés à ce jour :
– construire un modèle d’Uplift en prenant en compte le biais de traitement
– le domaine source qui sert à l’apprentissage peut différer sensiblement du domaine cible ou l’on veut appliquer le modèle. Construire un modèle qui s’adaptera à la modification de domaine sera un apport fort pour l’application réelle des modèles d’Uplift.

D’autre part, le nombre de variables pour modéliser l’Uplift est potentiellement très grand (plusieurs dizaines de milliers). Il conviendra d’étudier les algorithmes qui pourront prendre un nombre important de variables.

Orange Labs a développé l’outil KUplift pour répondre à la modélisation de l’Uplift sans biais. Nous souhaitons étendre cet outil en y ajoutant la prise en compte des biais tout en gardant des capacités d’apprentissage automatiques sur de grandes bases de données.

Profil du candidat :
Le profil souhaité est BAC + 5, école d’ingénieur ou Master Recherche informatique et/ou statistiques et/ou mathématiques appliquées.

– le ou la doctorant(e) devra avoir une bonne connaissance des statistiques et des mathématiques.

– il ou elle devra posséder de bonnes capacités à réaliser un travail approfondi de bibliographie.

– une bonne expérience du développement est requise (python, c++ ou java).

– des connaissances en apprentissage statistique sont un réel plus.

Formation et compétences requises :
Cf. partie “Profil du candidat”

Adresse d’emploi :
*Financement* :
Thèse Ciffre Orange Labs. Lannion.

*Pour candidater* :

1- Déposer votre cabdidature à :
https://orange.jobs/jobs/offer.do?joid=90913&lang=FR

2- *ET* envoyer in dossier de candidature complet contenant :
– un CV détaillé,
– une lettre de motivation,
– un relevé de notes avec classement (Licence, M1 et M2),
– le rapport de stage de master ou de fin d’étude (à défaut un rapport de stage rédigé par le candidat),
– lettres de recommandation ou personnes de références.

Ce dossier de candidature complet doit êtreau format pdf et est à envoyer à :
Nicolas Voisine – nicolas.voisine@orange.com
Bruno Crémilleux – bruno.cremilleux@unicaen.fr

*Date limite de candidature* :
Les candidats sont invités à prendre contact le plus tôt possible.