CIFRE (SAP-LIPN) :Modèles de prédiction interprétables pour processus non-stationnaires

When:
15/08/2020 – 16/08/2020 all-day
2020-08-15T02:00:00+02:00
2020-08-16T02:00:00+02:00

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIPN UMR CNRS 7030
Durée : 3 ans
Contact : mustapha.lebbah@univ-paris13.fr
Date limite de publication : 2020-08-15

Contexte :
SAP est l’un des plus grands éditeurs de logiciels de gestion de processus métier au monde, et offre des solutions qui permettent un traitement des données et des flux d’informations efficaces au sein des organisations. Fondée en 1972, elle a d’abord été baptisée Systemanalyse Programmentwicklung (développement de programmes d’analyse de système), pour devenir SAP par la suite. De petite
startup de cinq personnes, elle est passée à une entreprise multinationale de plus de 100 000 employés et plus de 440 000 clients dans 180 pays. Son siège social est basé à Walldorf en Allemagne. Avec ses premiers logiciels, SAP R/2 et SAP R/3, SAP a établi la norme en matière de logiciels
de planification des ressources de l’entreprise (ERP). Avec SAP S/4HANA, l’ERP passe au niveau supérieur en utilisant la puissance de la technologie In-memory pour traiter de grandes quantités de données et prendre en charge des technologies avancées telles que l’intelligence artificielle (IA) et le Machine Learning. Les applications intégrées de l’éditeur connectent toutes les composantes d’une entreprise en une suite intelligente sur une plateforme numérique. Aujourd’hui, SAP compte plus de 215 millions d’utilisateurs Cloud, plus de 100 solutions qui couvrent toutes les fonctions métier et le portefeuille d’offres Cloud le plus fourni.

Sujet :
Parmi les problèmes d’apprentissage traités par SAP, on distingue traditionnellement les tâches liées à l’apprentissage supervisé comme la classification/régression, bien adaptées à des processus stationnaires, et l’analyse et la prévision de séries temporelles, pour les processus non stationnaires. En classification/régression, la plupart des algorithmes classiques ne permettent pas d’extrapoler précisément la réponse à une variable au-delà du domaine rencontré en apprentissage. Le temps et les variables évoluant dans le temps sont donc généralement exclues du champ de la modélisation : une hypothèse classique est que le processus modélisé est suffisamment stationnaire pour que les données d’apprentissage soient représentatives du comportement à l’horizon temporel des prédictions souhaitées. En contrepartie, les algorithmes de classification/régression permettent une modélisation très fine des contributions de centaines de variables prédictives, incluant la prise en compte d’interactions complexes [LL17]. L’analyse des séries temporelles apparaît dans presque tous les domaines dont les variables dépendent fortement du facteur temps : anticipation d’utilisation de ressources, prévisions de ventes, de dépenses, ou d’abonnements, prévision de fréquentation de parcs d’attraction. La modélisation de l’évolution d’un signal en fonction du temps est au coeur de l’analyse de séries temporelles, avec deux difficultés principales : détecter les ruptures dans les tendances et identifier des prédicteurs parmi les variables dont il est possible d’anticiper les futures valeurs (à titre d’exemple des événements
récurrents comme les vacances scolaires). Les modèles de séries temporelles font en pratique intervenir peu de variables, avec des modèles additifs ou multiplicatifs simples, ignorant les interactions
entre les variables. Le sujet de recherche s’articule autour de deux aspects : (1) la construction d’un modèle robuste et sophistiqué pour le traitement de séries temporelles en présence de ruptures et (2) l’extension des modèles de classification/régression à l’extrapolation de tendances. Notre ambition est de briser la séparation traditionnelle entre classification/régression d’une part, et prévision de séries temporelles
d’autre part, en construisant un modèle prédictif unifié intégrant le temps, les facteurs évoluant lentement dans le temps, ainsi que toutes les variables connues au moment d’une prédiction. Ce modèle
doit :

—être assez complexe pour pouvoir apprendre les processus sous-jacents aux données.
— ne pas nécessiter une puissance de calcul exigeante.
— avoir des performances acceptables avec peu de données.
— être interprétable en un temps raisonnable.

Profil du candidat :
Le candidat(e) doit avoir de bonnes notions en mathématique, statistiques et algorithmiques/informatique.
Une expérience en traitement de données massives est souhaitable.

Formation et compétences requises :
Le dossier de candidature en PDF en un seul fichier comportera les éléments suivants :
— CV
— Relevés de notes, M1, M2 (Ing)
— Lettre de motivation
— Lettre(s) de recommandation et/ou des références

Adresse d’emploi :
Paris -ile de France

Document attaché : 202006251621_SAP_LIPN_court_recherche_candidat.pdf