Outils Statistiques pour l’Évaluation des Performances en Classification et Apprentissage en présence de données entachées d’erreurs

When:

15/06/2017 – 16/06/2017 all-day

2017-06-15T02:00:00+02:00

2017-06-16T02:00:00+02:00

Annonce en lien avec l’Action/le Réseau : Doctorants

Laboratoire/Entreprise : Loria (UMR 7503) – IECL (7502)
Durée : 3 ans
Contact : bart.lamiroy@loria.fr
Date limite de publication : 2017-06-15

Contexte :
Ce sujet de thèse est la prolongation du PEPS CNRS 2016 « Perfaclastique » entre le Loria et l’IECL et le projet Mastodons « Apprentistique » 2017 du CNRS entre le Loria, l’IECL et l’INRA de Toulouse.
Le travail effectué dans cette thèse, s’inscrit dans le projet CNRS Mastodons 2017 « Apprentistique » et est également financé par la Fédération Charles Hermite (FR 3198).

Sujet :
Le but de cette thèse est de contribuer à l’état de l’art en évaluation de performances dans des problèmes de classification (notamment en perception artificielle) en se positionnant en rupture par rapport aux consensus établis. Les méthodes d’apprentissage et de classification actuelles dépendent très fortement de grandes masses de données annotées pour fonctionner. Le bouleversement de l’état de l’art, notamment provoqué par les méthodes d’apprentissage profond, nécessite des approches d’évaluation des performances adaptées. Les hypothèses traditionnelles sur les données de référence pour mesurer les performances se trouvent fortement affaiblies du fait de la quantité des données nécessaire pour les faire fonctionner. Il devient alors impossible de présupposer que les données d’apprentissage et/ou d’évaluation soient exemptes d’erreurs ou de bruit, induisant ainsi des imprécisions sur les évaluations et les comparaisons entre expérimentations.
Dans ce projet, nous visons à établir à la fois les formalismes mathématiques et de protocoles expérimentaux qui permettront d’exprimer des niveaux de confiance et des métriques statistiques, pour prendre en compte l’incertitude sur les données dans l’évaluation de méthodes de classification et d’apprentissage.
Nous proposons de revisiter l’ensemble du processus en étudiant et en développant des outils statistiques permettant d’exprimer une « confiance » dans des mesures de classement issues de campagnes d’évaluation ou de benchmarking.
La question à laquelle on cherchera à répondre est la suivante :
Étant donnée la réponse de n algorithmes sur un ensemble de données de référence, quelle est la confiance que l’on peut accorder au classement qui en résulte, sachant que le taux d’erreur des données de référence est inférieur à e. Ou à partir de quel taux d’erreur sur les données de référence peut-on considérer, avec un taux de certitude de t, que le classement obtenu sera mis en défaut. De façon duale, on peut également, non pas exprimer une confiance dans les classifieurs, mais dans les données expérimentales. Plusieurs formulations probabilistes de cette question sont possibles. Par exemple, en considérant les données comme des réalisations d’un vecteur aléatoire (dont la loi pourra appartenir à un modèle paramétrique donné), on étudiera la loi du vecteur constitué des réponses des n algorithmes en tant que fonction de ce vecteur aléatoire, ce qui permettra de calculer la probabilité d’avoir un classement donné de ces réponses, et de considérer que le classement n’est pas fiable si cette probabilité est jugée trop faible. En supposant que la distribution des erreurs appartient à un modèle paramétrique, des outils de statistique bayésienne pourront être utilisés pour étudier la distribution a posteriori des paramètres au vu des réponses des algorithmes.

Profil du candidat :
Ce travail est co-encadré entre deux équipes de recherche, l’une spécialisée dans la classification et l’apprentissage, l’autre dans les statistiques. Les candidat.e.s pourront, sans distinction, mettre en valeur un profil plus informatique ou mathématique selon leurs compétences. Il est attendu que les candidat.e.s investissent ensuite le champ scientifique leur correspondant le mieux, tout en gardant une ouverture et une interaction suffisante avec l’autre.

Formation et compétences requises :
M2/École d’Ingénieurs en Statistiques ou M2/École d’Ingéniers en Informatique avec une préférence parmi l’une des dominantes suivantes : Big Data, Apprentissage/Classification.
Toute candidature sera étudiée.

Adresse d’emploi :
Laboratoires Loria et IECL, Campus Scientifique de l’Université de Lorraine, Nancy.

Les candidat.e.s potentiel.le.s doivent prendre contact avec les encadrants en envoyant un CV et lettre de motivation, et obligatoirement faire acte de candidature via http://www.adum.fr/as/ed/page.pl?site=IAEM&page=candidater.
Angelo Efoevi Koudou – MCF HDR – IECL (équipe Probabilités et Statistique)
Bart Lamiroy – MCF HDR – Loria (équipe Synalp)

Document attaché : Sujet-de-thèse-FCH-Koudou-Lamiroy-V_ADUM.pdf

MaDICS

Masses de Données, Informations et Connaissances en Sciences

Big Data - Data Science

Outils Statistiques pour l’Évaluation des Performances en Classification et Apprentissage en présence de données entachées d’erreurs