Détection d’anomalies dans les flux temps réels sol-bord de la SNCF

When:
30/09/2016 – 01/10/2016 all-day
2016-09-30T02:00:00+02:00
2016-10-01T02:00:00+02:00

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : Laboratoire LIRIS (UMR 5205) / SNCF, DSI Voyageurs
Durée : 3 ans
Contact : serge.fenet@liris.cnrs.fr
Date limite de publication : 2016-09-30

Contexte :
· Apprentissage automatique
· Détection d’anomalies
· Supervision de flux temps réel
· Fouille de données
· Modélisation de séries temporelles
· Trains communicants

Sujet :
La Société Nationale des Chemins de fer Français (SNCF) produit et exploite dans son système d’informations une grande quantité de données hétérogènes récoltées en temps réel. Certaines d’entre elles, généralement liées à l’information voyageurs, sont en provenance du SI au sol et de ses applications opérationnelles, telles que les prochains départs ou passages de trains, les dessertes prévues, l’estimation des retards, les perturbations, la localisation au sol, etc. Mais elle dispose également d’informations en provenance du bord, à partir de trains dits « communicants », telles que les données de géo-localisation par GPS, les données de télé-maintenance, de suivi de mission, de comptage voyageurs, etc. La volumétrie de ces flux est variable et pourra aller, par exemple pour la géo-localisation, jusqu’à 200 messages par seconde.
Tous ces flux sont collectés en temps réel, agrégés, uniformisés et diffusés par des plate-formes dites « de médiation » en haute disponibilité. Ces dernières nécessitent une supervision de bout-en-bout, c’est-à-dire depuis les nombreux équipements émetteurs, variés et hétérogènes, jusqu’aux applications d’exploitation métier consommatrices de ces données, en passant par de multiples équipements intermédiaires. Ce type de supervision permet d’observer de nombreuses variations dans le trafic de données. Elles peuvent d’une part être causées par la dynamique
des données récoltées (une perturbation du trafic, par exemple), et sont dans ce cas tout à fait normales. Cependant, elles peuvent aussi être non pas liées aux données observées, mais à l’infrastructure de collecte et de communication utilisée pour produire et faire transiter ces données. On parle alors de dysfonctionnements ou anomalies techniques de l’infrastructure, par opposition aux perturbations métier.

Ces anomalies concernent alors non pas les données métier circulant, mais les méta-données ou indicateurs relatifs aux flux observés (nombre de messages reçus par unité de temps, latence entre l’émission et la réception, etc.). Lorsqu’une telle anomalie se produit, il est parfois difficile de s’en rendre compte, et le délai entre le début de l’anomalie et son constat peut être d’une journée entière, selon les cas. Quand à la détermination de la cause de l’anomalie, nécessaire à sa résolution, elle pourra s’étendre sur plusieurs journées.
Ce sont la détection automatique et l’analyse de ces anomalies liées à l’infrastructure informatique et de communication qui sont au cœur de cette thèse. Le travail consistera notamment au développement et à l’évaluation de techniques de détection d’anomalies appliquées aux flux temps réels sol-bord, et s’inscrit dans la continuité d’un stage de Master M2 dans lequel une première modélisation des flux et un algorithme de détection d’anomalies ont été mis en place. L’objectif de la thèse est d’obtenir un modèle dynamique complet capable de s’adapter aux changements de régimes dans les flux temps-réels d’une part, en limitant le nombre de faux positifs, et permettant d’autre part de prendre en compte un ensemble de connaissances métier comme le plan de transport théorique des trains et ses adaptations, le parc des trains communicants, ainsi que les relations de corrélations et de causalité éventuelles entre différents indicateurs.
La thèse s’effectuera dans le domaine et avec l’équipe « Trains Communicants » de la Direction Déléguée SI « Production Ferroviaire », au sein de la « DSI
Voyageurs », dans l’EPIC « SNCF Mobilité » du groupe SNCF.

Profil du candidat :
Connaissances en apprentissage artificiel et en fouille de données.
La connaissances des méthodes liées aux séries temporelles est un plus.
Ce travail sur une période de 3 ans à mi-temps dans une très grande entreprise nécessite un goût pour les environnements industriels, le service aux utilisateurs, et une implication dans l’activité R&D de la SNCF.

Formation et compétences requises :
Titulaire d’un diplôme de Master (ou titre équivalent) en sciences informatiques
– solides connaissances de programmation
– motivation pour la recherche et pour le travail en équipe, esprit d’initiative,
curiosité intellectuelle, capacité rédactionnelle
– compétences écrites et orales en anglais fortement souhaitées

La date de démarrage prévue se situe entre Septembre et Novembre 2016. Les candidats intéressés doivent envoyer les documents suivants aux contacts listés ci-dessous :
– une courte déclaration d’intérêt ;
– un CV détaillé ;
– une liste des cours et des évaluations scolaires des deux dernières années ;
– des lettres de recommandations potentielles.

Contacts :
– Denis Jouvin, Architecte SOA du domaine Trains Communicants, Expert scientifique et technique du réseau SNCF SYNAPSES (denis.jouvin@sncf.fr), tél. 04 27 44 48 64, bureau 15-86
– Serge Fenet, Maître de conférences, Laboratoire LIRIS (serge.fenet@liris.cnrs.fr)
– Christophe Rigotti, Maître de conférences, HDR, Laboratoire LIRIS (christophe.rigotti@liris.cnrs.fr)

La SNCF étant une entreprise dans laquelle le Français est l’unique langue utilisée, les candidats devront la maîtriser. Une connaissance de l’Anglais est bien-sûr aussi nécessaire.
Toutes les candidatures seront examinées au fur et à mesure de leur arrivée, , et le poste restera ouvert jusqu’à ce qu’il soit pourvu.

Adresse d’emploi :
– Laboratoire LIRIS (UMR 5205), Domaine Scientifique La Doua, 43 bd 11
Novembre 1918, 69100 Villeurbanne
– SNCF, DSI Voyageurs – DD SI PF – Div. Architecture et Socles Communs,
Tour Oxygène, 10-12 Bd Marius Vivier Merle 69393, Lyon Cedex 03.

Document attaché : sujet_thèse_cifre_sncf_liris-dm2l_2016-2019.pdf