‘Optimisation pour la classification supervisée de données

When:
31/03/2021 – 01/04/2021 all-day
2021-03-31T02:00:00+02:00
2021-04-01T02:00:00+02:00

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : CRIStAL – Université de Lille
Durée : 6 mois
Contact : laetitia.jourdan@univ-lille1.fr
Date limite de publication : 2021-03-31

Contexte :
L’équipe ORKAD ( http://orkad.univ-lille.fr/ ) du laboratoire CRIStAL de l’université de Lille s’intéresse aux problèmes d’optimisation combinatoire et en particulier, intègre des mécanismes de connaissance dans la conception des algorithmes de résolution. L’intégration de connaissances nécessite de bien connaître les problèmes d’optimisation traités et de proposer des méthodes basées sur des analyses statistiques et issues de machine learning.
Dans ce stage, nous nous intéresserons à la classification supervisée (prédire une classe, par exemple : malade / sain) et plus particulièrement à l’algorithme MOCA-I, qui permet de proposer des règles de classification, notamment sur les données médicales [1]. Précédemment, nous avons proposé AC-MOCA-I [2,3], qui configure automatiquement MOCA-I pour trouver les hyper-paramètres les plus aptes à donner une bonne classification.
Le stage se fera en coopération avec le professeur Holger Hoos de l’université de Leiden (Pays-Bas).

Sujet :
La classification supervisée de données peut être modélisée comme un problème d’optimisation combinatoire où il faut maximiser le nombre de bonnes prédictions. MOCA-I est un algorithme d’optimisation paramétrable conçu pour résoudre les problèmes binaires de classification supervisée de données. Or l’efficacité de MOCA-I est fortement dépendante de ses hyper-paramètres pour chaque jeu de données à traiter. L’objectif du stage est de définir un protocole pour fixer les hyper-paramètres de MOCA-I. Pour cela, plusieurs solutions sont envisagées comme étudier l’impact des meta-features [4] des jeux de données, comparer différentes métriques utilisées par le classifieur… De plus, le choix des jeux de données d’entraînement joue un rôle important dans l’efficacité de la prédiction et cet aspect devra ếtre également considéré dans la mise en oeuvre du protocole.
Bibliographie
[1] The Detection of hospitalized patients at risk of testing positive to multi-drug resistant bacteria using MOCA-I, a rule-based “white-box” classification algorithm for medical data Julie Jacques, Helene Martin-Huyghe, Justine Lemtiri-Florek, Julien Taillard, Laetitia Jourdan, Clarisse Dhaenens, David Delerue, Arnaud Hansske, Valérie Leclercq. International Journal of Medical Informatics , Elsevier, In press, October 2020, 142
[2] Automatic Configuration of a Multi-objective Local Search for Imbalanced Classification Sara Tari, Holger Hoos, Julie Jacques, Marie-Eléonore Kessaci, Laetitia Jourdan PPSN 2020 , Sep 2020, Leiden, Netherlands. Pp.65-77,
[3] Sara Tari, Nicolas Szczepanski, Lucien Mousin, Julie Jacques, Marie-Eléonore Kessaci, Laetitia Jourdan: Multi-objective Automatic Algorithm Configuration for the Classification Problem of Imbalanced Data. CEC 2020: 1-8
[4] A. Balte, N. Pise, P. Kulkarni: Meta-Learning with Landmarking: A Survey. 2014. International Journal of Computer Applications

Profil du candidat :
Stage de fin d’étude (MAster/Ingénieur)

Pour candidater : CV + lettre de motivation à laetitia.jourdan@univ-lille.fr, marie-eleonore.kessaci@univ-lille.fr, julie.jacques@univ-lille.fr

Formation et compétences requises :
Goût pour l’optimisation combinatoire et la classification supervisée
Analyse de données
Savoir communiquer en anglais (oral/écrit)
Programmation R, Programmation orientée objet (C++)

Adresse d’emploi :
http://orkad.univ-lille.fr/
CRIStAL/Université de Lille/CNRS
Bat ESPRIT
Cité Scientifique
59655 Villeneuve d’Ascq Cedex
FRANCE