Action HELP (2021-2025)
Human Explainable machine Learning Pipeline
Responsables
- Michael Baker, i3, INSHSi
- Nicolas Labroche, LIFAT, INS2i
- Julien Aligon, IRIT, INS2i
Correspondant ComDIR : Myriam Maumy-Bertrand
Thématiques
Données concernées
Mots clés
Contexte et positionnement scientifique
L’objectif de l’action sera donc d’étudier l’explicabilité des pipelines de ML à la fois du point de vue de l’utilisateur et des données et de leur usage dans le système par les modèles de ML.
Du point de vue des utilisateurs, il faut définir les mécanismes d’interaction par lesquels un utilisateur peut coconstruire une explication avec “l’agent” (ou plus généralement le modèle) qui produit l’explication (initiative UXAI [Chaput et al., 2021]). Il faut également définir ce que l’on appelle une bonne explication pour un utilisateur et un cas d’usage fixé. Il faut donc déterminer ce qui peut être fait pour aider les utilisateurs, éventuellement en prenant en compte leur diversité, à comprendre les modèles appris et à inspecter leurs applications pour produire une IA explicable. Nous envisageons concrètement plusieurs “utilisateurs” issus de nos cas d’usage qui seront des experts métiers rattachés aux sources de données présentées en préambule. La place de l’utilisateur étant de première importance dans le projet, nous mettrons aussi l’accent sur la collaboration avec les sciences cognitives pour déterminer la qualité des processus explicatifs et les enrichissements que nous pourrons apporter aux méthodes d’explication pour qu’elles soient au plus près de ce qu’une explication réalisée par un expert humain pourrait être.
Du point de vue des données et de leur usage dans le système, il faut savoir comment les modèles appris peuvent être caractérisés et finalement certifiés en termes de fiabilité et de robustesse mais aussi en interprétabilité. La fiabilité des pipelines de ML est obtenue en combinant des informations théoriques sur les erreurs d’estimation et les probabilités de succès des méthodes de ML sous-jacentes. Les erreurs se propagent dans le pipeline, ce qui peut perturber le résultat final de manière imprévisible. Il faut donc quantifier précisément les erreurs et comprendre la façon dont elles se propagent dans un système. Les limites d’erreur et les techniques d’apprentissage aléatoires s’accompagnent de probabilités de réussite ou d’incertitudes, ce qui peut entraîner une mauvaise interprétation du résultat final. Il est donc très important d’intégrer ces incertitudes dans le processus d’explication [Omidvar-Tehrani & Renders, 2019] [Data Readiness 2021]. De même, pour garantir une plus grande interprétabilité du pipeline, il faut être capable d’expliquer et donc de rendre interprétable chacun de ses composants en regard des objectifs d’analyse de l’utilisateur.
Cette Action a pour objectif d’apporter un regard bi-disciplinaire et vise à enrichir la perception d’un problème par son étude croisée dans plusieurs domaines. La communauté informatique notamment s’est déjà emparée par le biais du GdR IA GT Explicabilité de ces thématiques, mais sous l’angle des modèles de prédiction ou des méthodes d’intelligence artificielle. Nous faisons dans cette action, la proposition de mettre le focus sur les données et les pipelines de traitement de bout-en-bout et de voir l’impact de la données sur les explications des modèles d’apprentissage automatique. Notre ambition est de nourrir les réflexions menées au sein de ce groupe bien établi par un regard pluridisciplinaire qui vise la complexité des pipelines de ML actuellement déployés en industrie. Les porteurs du groupe GT explicabilité ont été associés dès le début à la démarche du groupe de l’atelier Fender et restent associés à toutes les décisions concernant l’action HELP.
Au sein du GdR MaDICS, des liens doivent être établis avec des actions MaDICS comme MADONA, PLATFORM ou encore l’atelier SimpleText. Du point de vue des sciences humaines et également en informatique par le biais des travaux rapportés par A. Mille lors de son exposé à l’atelier Fender [Chaput et al., 2021], une explication se rapproche d’un discours argumenté et pourrait donc possiblement prendre la forme d’une narration basée sur les données. Cet angle de vue permet également de renforcer le rôle de la donnée dans la construction d’une explication acceptée par l’utilisateur. A ce sujet, l’action MADONA a déjà produit un modèle conceptuel du processus de narration de données [El Outa et al., 2020], et qui pourrait donc être rapproché d’un modèle formel pour la co-construction de l’explication du résultat d’un algorithme de machine learning. De même, la capacité à expliquer un algorithme influence directement la confiance que les utilisateurs peuvent avoir et donc l’acceptation de leurs décisions ce qui rapproche nos objectifs des thématiques de l’action PLATFORM. Enfin, l’atelier SimpleText pose la question de rendre plus simple la compréhension d’un texte de manière automatique, ce qui revient à produire une forme d’explication par la recherche d’un modèle de texte plus interprétable. La compréhension est un des deux piliers d’une explication avec la confiance et par conséquent le projet SimpleText paraît aussi intéressant pour la future action. Notamment, des questions de recherche de l’atelier SimpleText trouvent un écho dans nos propres questionnements : est-ce qu’un texte simplifié doit nécessairement être plus court que le texte qu’il cherche à expliquer ? De même, est-ce qu’une explication d’une chaîne de traitement de données ne doit pas être plus longue (mais pas plus complexe) que la chaîne de façon à pouvoir justement amener des éléments de contextualisation et d’explications ?
D’autres initiatives majeures sur l’explication des données sont conduites dans la plupart des laboratoires ou instituts de recherche au niveau national (notamment l’INRIA). Des rapprochements ont été établis et devront être renforcés, par la co-organisation de journées scientifiques, le co-encadrement d’étudiants ou la constitution de groupes de travail particuliers dédiés à la réponse d’appel à projet nationaux ou européens.