Correction des biais dans le cadre de la modélisation de l’impact d’actions : application à la prédiction de l’Uplift

When:
30/09/2019 all-day
2019-09-30T00:00:00+02:00
2019-10-01T00:00:00+02:00

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : Orange Labs Lannion (Orange Labs est la division recherche et développement du groupe Orange)
Durée : 36 mois
Contact : nicolas.voisine@orange.com
Date limite de publication : 2019-09-30

Contexte :
*Contexte global de la thèse et état de l’art*

« L’Uplift (levier) désigne (définition wikipedia.fr) une génération de modèles statistiques employés en marketing quantitatif pour détecter les populations des consommateurs sensibles à une offre commerciale. Pour les opérations de marketing ciblées, l’uplift aide à identifier les groupes de personnes étant susceptibles de répondre positivement à une sollicitation marketing. Par-là, cette technique permet de réduire le nombre de messages commerciaux émis, et donc le coût de la publicité.
Elle est à la fois une amélioration des techniques marketing classiques et un complément aux techniques du data mining : scoring de propension et scoring anti-attrition, …

D’une manière générale, le modèle l’uplift est un moyen de prédire, avec un certain taux d’erreur, l’impact d’une action sur le comportement de quelqu’un. Par exemple la méthode permet de connaitre la probabilité de changement de comportement d’achat d’un groupe de personnes après une campagne marketing direct».

De par sa définition on comprend aisément l’intérêt pour un opérateur tel qu’Orange.

Cette définition fait apparaitre des éléments clefs :
· une population d’intérêt (un périmètre) et sa description (par exemple des variables descriptives des individus et/ou de leurs comportements passés)
· une mesure d’un delta entre le résultat obtenu entre la présence ou l’absence d’une sollicitation (par exemple si des produits sont souscrits naturellement)
· une modélisation : prédire le delta « avant » de faire la campagne;

L’une des difficultés inhérente à l’uplift réside dans le fait que les données ne sont « étiquetées » que partiellement. Il est impossible de savoir si le traitement choisi est optimal pour un sujet donné parce que les réponses aux traitements alternatifs ne sont pas observées. L’autre difficulté pratique liée à la prédiction est qu’en pratique les données sont biaisées :
· les données entre traitement de l’ensemble d’apprentissage sont biaisées
· les données qui servent à construire le modèle sont différentes de celles où on applique le modèle.

On souhaite dans la thèse améliorer l’état de l’art de la modélisation de l’uplift sur deux axes important peu étudiés à ce jour dans la littérature :
· Construire un modèle d’uplift en prenant en compte le biais de traitement
· Le domaine source qui sert à l’apprentissage peut différer sensiblement du domaine cible ou l’on veut appliquer le modèle. Construire un modèle qui s’adaptera à la modification de domaine sera un apport fort pour l’application réelle des modèles d’uplift.

Dans le domaine de l’apprentissage de l’uplift à Orange, l’outil Kuplift a été développé pour répondre à la modélisation de l’uplift sans biais. Nous souhaitons aboutir à une amélioration de l’outil qui prend en compte les biais tout en gardant des capacités automatiques d’apprentissage sur de grandes bases de données.

Sujet :
*Objectifs de la thèse*

L’objectif général de cette thèse est de spécifier, réaliser, étudier etévaluer un algorithme d’apprentissage d’Uplift prenant en compte le biais des données d’apprentissage et de déploiement. Ces algorithmes auront des capacités automatiques d’apprentissage sur de grandes bases de données tout en ayant de très bonnes performances sur petits échantillons. Plusieurs verrous techniques et méthodologiques devront être levés pour atteindre notre objectif.

Dans le domaine de l’optimisation des traitements (i.e. actions commerciales) on expérimente en respectant un plan d’expérience des traitements pour choisir au mieux celui qui maximise un critère de performance. On retrouve ces techniques d’optimisation dans de nombreux domaines pour faciliter la prise de décision : bancaire, marketing, médical, sociologie et e-business. Ces techniques permettent de choisir le traitement optimal pour la population testée avec une certaine garantie statistique. Ces techniques recherchent à comparer l’expérimentation à des résultats alternatifs, on parle alors d’étude
contrefactuelle ([7]).

Dans la littérature plusieurs études ont permis de répondre aux défis de la modélisation de l’uplift. Pour commencer on a d’abord modélisé l’Uplift dans le cas du bi-traitement ([1][2]) puis en multitraitement [4]. D’autres ont étudié l’évaluation des modèles d’uplift ([3]).

Cependant 2 aspects primordiaux pour répondre à des problèmes opérationnels n’ont pas été suffisamment étudiés. Le premier, vient que nous devrions modéliser l’Uplift sur des données expérimentales, c’est-à-dire que nous avons la maitrise de la génération des données et qu’il n’y a pas de biais entre les données issues de différents traitements. Or en pratique on constate que les données sont de nature observationnelles et qu’il y a un biais, ce qui rend inopérantes les méthodes de modélisation d’Uplift. Le second aspect vient du biais entre les données d’apprentissage et les données de déploiement. On fait l’hypothèse qu’il n’y a pas de biais. Or en pratique, il y a toujours un biais entre ces données.

Pour répondre à ces problèmes, différents travaux de recherche s’approchent de ces problématiques. L’une concernant plus le mode batch de la modélisation, est basée sur le champ de recherche de l’adaptation de domaine ([6]) et de l’approche causale ([7]). L’autre concerne le champ de recherche apprentissage par renforcement ([5]). Pour finir le nombre de variables pour modéliser l’Uplift est potentiellement très grand (plusieurs dizaines de milliers). Il conviendra d’étudier les algorithmes qui pourront prendre un nombre important de variables.

*Références:*

1. P. Rzepakowski and S. Jaroszewicz, *Decision Trees for Uplift Modeling*, /2010 IEEE International Conference on Data Mining/, Sydney, NSW, 2010, pp. 441-450.

2. Maciej Jaskowski and Szymon Jaroszewicz. *Uplift modeling for clinical trial data*. ICML, Workshop on Clinical Data Analysis, 2012

3. Nicholas J. Radcliffe Patrick D. Surry *Real-world uplift modelling with significance-based uplift trees* White Paper TR-2011-1 Stochastic Solutions 2011.

4. Zhao Yan Xiao Fang David Simchi-Levi *Uplift Modeling with Multiple Treatments and General Response Types* Proceedings of the 2017 SIAM International Conference on Data Mining 2017.

5. Sawant N, Namballa CB, Sadagopan N, and Nassif H. *Contextual Multi-Armed Bandits for Causal Marketing*. International Conference on Machine Learning (ICML’18) Workshops, Stockholm, Sweden, 2018

6. Jiang, J. (2008). *A literature survey on domain adaptation of statistical classifiers*. /URL: http://sifaka. cs. uiuc. edu/jiang4/domain adaptation/survey/, /3/, 1-12.

7. Pierre Gutierrez, Jean-Yves Gérardy ; *Causal Inference and Uplift Modelling: A Review of the Literature *Proceedings of The 3rd International Conference on Predictive Applications and APIs, PMLR 67:1-13, 2017.

Profil du candidat :
Le profil souhaité est BAC + 5, école d’ingénieur ou Master Recherche informatique et/ou statistiques et/ou mathématiques appliquées.

Formation et compétences requises :
– Le doctorant devra avoir une bonne connaissance des statistiques
et des mathématiques.
– Il devra réaliser un travail approfondi de bibliographie.
– Une expérience du développement est requise (python, c++ ou java).
– Des connaissances en apprentissage statistique sont un réel plus.

Adresse d’emploi :
Orange Labs Lannion (Orange Labs est la division recherche et développement du groupe Orange)

*Equipe d’accueil (industriel): *PROF (Profiling & Datamining) Vous serez dans l’équipe de traitement statistique de l’information d’Orange Labs Lannion. Cette équipe spécialisée en machine learning, data mining et profiling, comporte une vingtaine de permanents, sur des sujets allant de la recherche aux applications opérationnelles, ainsi que 5doctorants et post-doc.

*Directeur de Thèse (industriel) : *Nicolas Voisine*(**nicolas.voisine@orange.com
**)*

*Laboratoire Universitaire d’accueil et Directeur de Thèse universitaire: *en cours

*Début de la Thèse : *Novembre 2019.

Pour constituer le dossier d’audition nous demandons au (à la) candidat(e) d’envoyer TOUTES les pièces suivantes :

– un CV,
– une lettre de motivation,
– un relevé de notes avec classement (Licence, M1 et M2),
– un rapport de stage de Master (à défaut un rapport de stage rédigé par le candidat),
– 2 lettres de recommandation ou 2 contacts.

Les candidatures sont à faire en ligne sur Orange.jobs :
https://orange.jobs/jobs/offer.do?joid=82640&lang=fr

ou à adresser par courriel électronique à*nicolas.voisine@orange.com
*

Document attaché :