Détection d’anomalies en apprentissage machine

When:

22/04/2022 – 23/04/2022 all-day

2022-04-22T02:00:00+02:00

2022-04-23T02:00:00+02:00

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoire Informatique et Société Numérique (LIS
Durée : 3 ans
Contact : alexandre.baussard@utt.fr
Date limite de publication : 2022-04-22

Contexte :
La détection d’anomalies est un sujet important de l’analyse de données. La définition d’une anomalie peut varier en fonction du domaine d’application ou de l’objectif visé, mais généralement on considère que c’est une observation qui dévie considérablement du reste des autres observations comme si elle était générée par un processus différent. Ainsi, dans certains cas la détection d’anomalies peut permettre d’améliorer la qualité des données par suppression ou remplacement des données anormales. Dans d’autres cas, les anomalies traduisent un événement et apportent de nouvelles connaissances utiles. Par exemple, la détection d’anomalies peut prévenir un dommage matériel et donc inciter à la maintenance préventive dans le domaine de l’industrie. Elles peuvent aussi être signe de la présence d’un nouveau phénomène qu’il faudra essayer de prendre en compte, comme la détection d’une nouvelle classe.

Sujet :
L’apprentissage machine et plus particulièrement l’apprentissage profond (deep learning) permettent d’obtenir des performances très élevées lorsqu’on cherche par exemple à détecter et reconnaitre des objets ou encore à classifier des zones d’intérêt dans des images ou des vidéos. Cependant, en utilisation réelle, il faut décider si une nouvelle observation appartient à la même distribution que les observations existantes (utilisées lors de l’apprentissage), ou si elle doit être considérée comme différentes. Ce type de distinctions peut intervenir à deux niveaux selon les contextes. Dans un premier cas les données d’apprentissage contiennent des observations aberrantes qui sont définies comme des observations éloignées des autres. Les estimateurs de détection des aberrations tentent donc d’ajuster les régions où les données d’apprentissage sont les plus concentrées, en ignorant les observations déviantes. Dans le second cas, les données d’apprentissage ne sont pas polluées par des valeurs aberrantes, mais ces dernières peuvent survenir lors de la phase de te. Dans ce cas, nous sommes intéressés à adjoindre aux méthodes de reconnaissance une aptitude à écarter les nouvelles observations aberrantes. Nous sommes donc intéressés à détecter si une nouvelle observation est une valeur aberrante. Il s’agit notamment d’éviter que le système prenne une décision, à tort, avec une grande confiance. Dans ce contexte, la détection d’une observation aberrante peut avoir différents intérêts car elle pourrait par exemple être liée à une information pertinente jamais rencontrée ou non apprise jusqu’ici. Il apparaît donc important de pouvoir détecter dans un premier temps ces anomalies et, dans un deuxième temps, d’essayer de les exploiter pour mettre en évidence d’éventuelles nouvelles données utiles.

Dans le cadre de ce projet, nous allons nous focaliser sur le deuxième cas, à savoir la détection d’anomalies en condition d’utilisation réelle. Notre objectif en développant ces méthodes de détection est double. Il s’agit d’éviter les erreurs et de progresser vers une meilleure compréhension du processus de prise de décision par ces systèmes souvent considérés comme des « boîtes noires », dont le fonctionnement interne n’est pas explicable. Cela devrait aussi contribuer à caractériser les éléments conduisant à la prise de décision, via par exemple un niveau de confiance dans la décision.

Profil du candidat :
Etudiant de niveau master 2 avec une formation universitaire ou école d’ingénieur.

Formation et compétences requises :
Le candidat devra avoir des compétences en mathématiques appliquées, informatique, statistique, sciences des données et traitement du signal et des images.

Une première expérience dans le domaine de l’apprentissage profond et dans l’utilisation des bibliothèques TensorFlow ou PyTorch seront des plus.

Adresse d’emploi :
Université de Technologie de Troyes

MaDICS

Masses de Données, Informations et Connaissances en Sciences

Big Data - Data Science

Détection d’anomalies en apprentissage machine