Explication de modèles prédictifs par sélection d’instances

When:

31/01/2020 – 01/02/2020 all-day

2020-01-31T01:00:00+01:00

2020-02-01T01:00:00+01:00

Annonce en lien avec l’Action/le Réseau : Formation

Laboratoire/Entreprise : Société Kaduceo avec co-encadrement de l’IRIT (Toulouse)
Durée : 6 mois
Contact : julien.aligon@irit.fr
Date limite de publication : 2020-01-31

Contexte :
La mission s’inscrit dans le cadre d’une collaboration entre l’entreprise Kaduceo et l’équipe SIG de l’IRIT. Le cœur de métier de Kaduceo porte sur l’aide à la décision pour les données de santé, en particulier sur les hospitalisions et consultations. Ces données ont, en particulier, besoin d’être catégorisées automatiquement afin de mieux prendre en charge les patients et d’améliorer les conditions de travail des professionnels de santé (par exemple dans les Centres Hospitaliers). A cette fin, l’utilisation de modèles prédictifs peut être une solution mais ils sont généralement difficiles à appréhender. En effet, le manque d’explications sur ces modèles mène à un effet « black box », entrainant une possible perte de confiance de l’utilisateur. Afin d’éviter ce problème, quelques stratégies d’explications de prédictions ont été proposées dans la littérature [3, 4, 5].

[3] Ribeiro, Marco Tulio and Singh, Sameer and Guestrin, Carlos, “Why Should I Trust You?”: Explaining the Predictions of Any Classifier, SIGKDD 2016
[4] Gabriel Ferrettini, Julien Aligon and Chantal Soulé-Dupuy, “Explaining single predictions : a faster method”, SOFSEM 2020 (To Appear)
[5] Gabriel Ferrettini, Julien Aligon et Chantal Soulé-Dupuy, « Un cadre d’aide à l’exploitation des résultats de prédictions », à destination d’experts de domaine, Inforsid 2019

Sujet :
L’objectif du stage porte sur la conception et la réalisation d’une nouvelle méthode d’explication pour les modèles prédictifs. Le but sera d’identifier, dans le dataset, le sous ensemble d’instances (le plus réduit possible) expliquant au mieux le modèle. Ces instances pourraient être vues comme des exemples caractéristiques du modèle. Ainsi, l’utilisateur n’aurait plus qu’à analyser ces instances afin de comprendre et valider son modèle.

Les principales étapes du stage sont les suivantes :
– Analyser et préparer les données du cas d’usage
– Appliquer des algorithmes de prédictions
– Concevoir et implémenter l’algorithme de sélection d’instances pour l’explication

Il est à noter que le bon déroulement du stage pourra mener à une possible thèse CIFRE par la suite.
Le stage est rémunéré aux alentours de 900€ par mois.

Profil du candidat :
Le stagiaire devra avoir un intérêt certain pour l’analyse de données et le machine learning. Le stagiaire devra également disposer d’une capacité à s’exprimer auprès de non-spécialistes en informatique.

Formation et compétences requises :
Etudiant M2.
De fortes compétences en Python sont attendues.

Adresse d’emploi :
96 Avenue Jules Julien N°5, 31400 Toulouse

Document attaché : proposition_stage_kaduceo.pdf

MaDICS

Masses de Données, Informations et Connaissances en Sciences

Big Data - Data Science

Explication de modèles prédictifs par sélection d’instances