SEEDS@MaDICS 2023

Dates : du 27 au 31 mars 2023
Lieu : Université de Technologie de Troyes (UTT)

Qu’est-ce qu’une SEEDS@MaDICS ?

Les Semaines Études Entreprises en Data Sciences du GDR CNRS MaDICS (SEEDS@MaDICS) visent à créer des échanges entre les milieux industriels et le monde académique par le biais d’une semaine de travail (du lundi au vendredi) sur des problèmes posés par des industriels et nécessitant des approches informatiques et mathématiques innovantes.

Les problèmes, présentés et discutés le premier jour (le lundi matin), sont abordés par des groupes de 4/5 jeunes chercheurs (doctorant·e·s et poѕt-doctorant·e·s). Les avancées sont présentées oralement le dernier jour (le vendredi). Chaque groupe peut éventuellement être épaulé par des chercheurs plus expérimentés, mais garde une totale liberté quant à l’orientation de ses travaux.

Une synthèse écrite est remise à l’entreprise en fin de semaine. Dans les mois qui suivent, un rapport est rédigé et mis à disposition du public.

Les SEEDS@MaDICS sont une initiative du GDR CNRS MaDICS qui s’inspirent grandement des SEME de l’AMIES, elles-mêmes inspirées du modèle des European Study Group for Industry mis en place au Royaume-Uni dans les années 1960, puis dans de nombreux pays européens.

Qui peut participer ?

Les SEEDS@MaDICS s’adressent aux doctorant·e·s, post-doctorant·e·s et ATER, quelque soit leurs domaines de recherche, qu’ils correspondent ou non aux problèmes proposés.

Le nombre de places est limité à 20 participant·e·s.

Attention

Si vous êtes doctorant·e, vous devez contacter votre(vos) directeur(s)/directrice(s) de thèse pour qu’il(s)/elle(s) donne(nt) son/leur accord pour votre participation physique à la semaine d’étude. Nous demandons à recevoir un mail de sa/leur part qui nous permettra de valider votre inscription. (adressé à seeds@madics.fr)
Notez bien que le logement et les repas (du lundi au vendredi midi) sont inclus dans l’inscription. Cependant il vous reste à prendre en charge les frais relatifs au trajet aller-retour à Troyes (via votre laboratoire, votre école doctorale, …). Pour résumer, c’est à vous de gérer la partie “transport”.

Comité d’organisation

Myriam Maumy (Maître de Conférences, HdR, UTT)
Frédéric Bertrand (Professeur des Universités, UTT)

Pour toute question ou information, veuillez contacter seeds@madics.fr

Sujets proposés

YourData Consulting

Livejourney est un logiciel développé par l’entreprise Your Data Consulting, créée en 2016 et récemment acquise par QAD, entreprise technologique américaine spécialisée dans le logiciel de plannification et gestion de ressources (ERP) pour les entreprises industrielles.
Livejourney se spécialise dans la fouille de processus métiers, ainsi que dans leur prédiction grâce à des méthodes d’apprentissage profond.

Sujet 1 : Data augmentation
Toute organisation met en place un certain nombre de processus afin de formaliser et normaliser des pratiques en interne. Les événements se déroulant dans un processus sont enregistrés dans un journal d’événements, tableau contenant au moins 3 variables : un identifiant unique pour chaque unité dans le processus, les activités par lesquelles les unités passent, et l’horodatage de ces activités. L’ensemble des événements caractérisant une même unité constitue son parcours.
D’autres covariables décrivant une unité ou les conditions actuelles du processus peuvent être présentes dans un journal d’événements : fournisseur, livreur, type de produit, population dans le processus, etc.
Sachant cela, la prédiction de parcours d’unités dans un processus se fait à partir de données typiquement très déséquilibrées : un grand nombre d’unités feront le même parcours, mais une petite fraction fera beaucoup de parcours très diversifiés.
Ainsi, un modèle prédictif peut être faussement considéré comme “précis” en prédisant systématiquement le parcours le plus probable, ignorant toute la variation présente dans une minorité d’unités.
Pour pallier ce problème, le sur-échantillonnage des parcours peu communs, ou le sous-échantillonnage des parcours surreprésentés, sont des méthodes de base fonctionnelles.
Malheureusement, un simple ré-échantillonnage de la donnée n’apporte pas de nouvelles données, et renforce le risque de sur-apprentissage des patternsspécifiques qui ont mené à cette diversité de parcours.
Ainsi, une autre piste serait de créer de toute pièce des unités ressemblant aux unités minoritaires réelles. Cela permettrait de peupler de façon plus homogène la population d’unités minoritaires.
Les algorithmes de type SMOTE sont une première idée, créant une observation placée aléatoirement sur le segment entre un individu minoritaire initial et un k plus proche voisin également sélectionné aléatoirement.
Le problème de ces algorithmes, quand appliqués aux journaux d’événements, est la conformité des unités synthétiques : les unités ainsi créées ne doivent pas présenter de violation du processus dans leur parcours. Outre une cohérence dans les covariables pour un simple événement, il faut également que le parcours entier généré, et les séquences de covariables qui correspondent, soient à la fois nouveaux et conformes aux règles cachées régissant le processus.
La tâche serait donc de créer une méthode de création d’unités synthétiques qui minimise leur risque de non-conformité.

Sujet 2 : Root cause analysis
Un processus est un ensemble d’activités corrélées ou en interaction qui utilise des éléments d’entrée pour produire un résultat escompté (ISO 9000:2015). Un processus est enregistré informatiquement sous forme d’un journal d’événements, dans lequel chaque ligne est un événement : une unité passe par une activité à une date et heure données.
Généralement, un processus a été mis en place à partir d’un modèle théorique, dit “BPMN” (Business Process Model and Notation). Ce modèle théorique place un cadre autour de l’ordre dans lequel les activités doivent / peuvent être effectuées.
Or, une fois un modèle appliqué dans la réalité, certaines unités engendrent dans leur parcours une violation du BPMN. Il est alors intéressant de chercher à expliquer la cause de cette violation, qui prend la forme d’une variable binaire.
Des variables décrivant les unités (fournisseur, livreur, type de pièce industrielle, …) ont été utilisées pour expliquer ces violations, sans grand succès.
Ce problème laisse penser que les violations sont majoritairement causées par des variables internes au processus : processus débordé, erreur d’un employé, autre unité à l’origine du problème, etc.
Il faudrait ainsi enrichir les unités par des variables qui encoderaient ces situations internes au processus, puis les utiliser pour expliquer les violations.
Une première piste serait d’adapter puis appliquer un algorithme de type champs aléatoires conditionnels (conditional random fields, CRFs), qui sont un type de modèle utilisé en apprentissage statistique. Les CRFs permettent de considérer des observations “voisines”, en représentant les observations sur un graphe. Ces algorithmes sont typiquement utilisés en traitement du langage naturel : un mot va être prédit majoritairement en fonction des mots qu’il y a directement autour.
Un raisonnement analogue semble applicable pour modéliser les violations d’une unité en fonction du contexte dans lequel elle évolue.

BrainCube

https://braincube.com/

Sujet 3 : Conception d’un algorithme permettant de prescrire des réglages pour un processus de fabrication industriel
On dispose de plusieurs datasets décrivant des processus de fabrication industrielle.
Chaque dataset est composé d’un ensemble d’individus horodatés (typiquement un par minute). Les individus sont caractérisés par un ensemble de variables. On distingue 3 types de variables :

Des variables réglages qui correspondent aux variables dont les valeurs sont contrôlées par les opérateurs.
Des variables de contextes qui correspondent aux variables subies qui ont potentiellement un impact sur la conduite du processus.
Une variable objectif qui permet de caractériser la qualité du produit obtenue.

Pour chacun des datasets on dispose d’un modèle prédictif permettant de prédire la valeur de la variable objectif en fonction d’un sous-ensemble des variables disponibles.
On s’intéresse à la conception et la mise en œuvre d’un algorithme permettant de prescrire des réglages.
L’objectif est de concevoir un algorithme générique (utilisable pour n’importe quelle dataset), qui prescrit des valeurs pour un certain nombre de variables de réglage (pas nécessairement toutes).
Un algorithme de prescription est jugé performant si pour chaque dataset, la valeur de la variable objectif calculée en passant les valeurs prescrites en paramètre du modèle prédictif est supérieure à la valeur de variable objectif présente dans l’historique pour chaque individu.
Les technologies, méthodes algorithmique, langage de programmation, et framework utilisés sont laissé au libre choix des candidats

Association SPOT

Face à la masse d’informations circulant en permanence dans les médias et sur les réseaux, le débat public est trop souvent mené (voire miné) par l’émotion, l’invective et le scandale au détriment de la réflexion collective sur les sujets qui chaque jour forgent l’avenir de notre société.
Spot est une plateforme web neutre permettant pour chaque grand débat de société de collaborativement regrouper, organiser et croiser les contenus déjà publiés dans les médias et sur les réseaux sociaux. Spot cherche notamment à référencer les personnes s’étant exprimées publiquement ainsi que les sources associées.
Nous travaillons actuellement à faciliter la documentation des débats de société déjà ouverts sur le site, en cherchant sur la toile les contenus existants traitant déjà de ces débats. Un algorithme développé récemment permet déjà à la plateforme d’identifier les Tweets en lien avec les débats déjà présents sur le site Spot. Le Tweet présente l’avantage d’être concis (280 caractères maximum) et le locuteur est connu.

Sujet 4 : Info Science des Données
Dans le cadre de SEEDS@MadDICS, l’objectif est d’élargir le référencement des personnes s’étant exprimées dans le débat public à des textes nettement plus longs qu’un Tweet : articles de presse, transcriptions écrites d’une piste audio ou vidéo.
A ces fins, l’objectif est de concevoir un algorithme capable pour un long texte (par exemple un article de presse) d’identifier :

quels sujets sont abordés, et à quels emplacements du texte
qui s’exprime dans le texte : nombre de personnes, nom(s)

Le challenge consiste à identifier la bonne approche Data et les algorithmes permettant d’extraire les informations souhaitées dans un texte long. La littérature scientifique portant sur ces traitements NLP en langue française reste à ce jour relativement maigre.
Compte tenu de la masse importante d’informations potentielles à exploiter et des vitesses de traitements des algorithmes (par exemple sur l’encodage des textes), la prise en compte des performances de calcul est un plus.
Il s’agit d’un sujet vaste qui pourra être adapté aux contraintes pratiques lors de la SEEDS@MaDICS : temps disponible, appétences et compétences des participants.

LabCom Ditex – IFTH

Le LabCom-DiTeX de l’unité de recherche LIST3N (Laboratoire Informatique et Société Numérique) est un Laboratoire Commun (LabCom) de recherche et développement en Data-Innovation pour l’industrie du Textile et de l’habillement (DiTeX) qui regroupe l’Université de Technologie de Troyes (UTT) et l’Institut Français Textile et Habillement (IFTH). Il a pour ambition d’explorer les nouvelles voies dans le domaine de la modélisation statistique et des big data pour l’analyse et la valorisation des données appliquées aux problèmes et aux données de l’habillement. L’un des axes de développement de nouveaux services concerne la segmentation des données métier (matériaux, mensurations, morphologie, etc.) pour permettre une exploration exhaustive des panels et une meilleure connaissance des différentes morphologies grâce à des approches d’intelligence artificielle.

Sujet 5 : Algorithme d’extraction de mensurations d’un scan 3D de corps humain
Dans le domaine du textile, les données utiles pour l’habillement sont des mensurations précises qui correspondent à des longueurs ou des distances entres points du corps qui peuvent typiquement s’obtenir à l’aide d’un mètre ruban. Avec les moyens de mesure contemporains, il est aussi possible de scanner le corps et d’obtenir sa représentation sous la forme d’un nuage de points anthropométriques répartis à la surface du corps qui peuvent être connectés pour former un maillage 3D de l’enveloppe d’une personne.
L’objectif de l’atelier est de proposer des approches afin afin d’extraire des mensurations de ces scans 3D. Les mensurations étudiées sont celles dites “faciles à mesurer” comme la stature ou les tours de poitrine, tailles et bassin. Dans un premier temps il faudra manipuler des scans 3D avec des logiciels comme MeshLab et des librairies python comme Meshio ou PyMeshLab. Ensuite il s’agira de proposer une méthode d’extraction des mensurations associées en vous inspirant de méthodes géométriques, de vision artificielle, d’apprentissage ou tout autre approche qui vous semble approprié.

Caisse Primaire d’Assurance Maladie de Meurthe-et-Moselle

La CPAM de Meurthe-et-Moselle est un organisme exerçant une mission de service public de proximité. S’appuyant sur plus de 13 agences et points d’accueil, elle accompagne plus de 645 500 bénéficiaires en prenant en charge leurs soins quels que soient leurs ressources, leur situation ou leur état de santé.
Forts de cette proximité et des valeurs d’universalité et de solidarité qui les animent, ses 600 collaborateurs se mobilisent quotidiennement pour garantir un accès universel aux droits, permettre l’accès aux soins et proposer une offre de prévention toujours enrichie. Dans le milieu professionnel aussi, la Caisse Primaire renforce ses dispositifs d’accompagnement des entreprises et de protection des salariés les plus exposés ou les plus fragiles. Acteur essentiel dans la préservation du système de santé, elle cherche à concilier la meilleure qualité des soins et le meilleur coût. Toutes ces missions sont construites en lien avec les 4.800 professionnels de santé du département, les 270 établissements et les structures de soins coordonnés (11 Maisons de Santé Pluri-professionnelles – 14 Equipes de Soins Primaires – 2 Communautés Professionnelles Territoriales de Santé). Pour suivre et s’adapter aux évolutions des usages de ses différents publics, des actions de développement des télé-services et d’accompagnement des évolutions du numériques en santé sont mises en œuvre. Enfin, son réseau de partenaires sociaux et institutionnels est l’un des piliers important pour porter les offres et les messages de l’Assurance Maladie au plus près des publics fragiles sur l’ensemble de nos territoires.

Sujet 6 : Repérer les factures suspectes en matière de soins dentaires
L’assurance maladie est régulièrement mise sous les feux de l’actualité sur le sujet fraude, et dans ce sujet la question des surfacturations de soins dentaires est souvent abordée. La notion de surfacturation recouvre deux situations :

des soins qui ont bien eu lieu mais qui étaient inutiles et parfois inadaptés, voire dangereux
des soins facturés alors qu’ils n’ont pas été réalisés ou bien d’une autre manière que celle prévue.

Dans sa politique de contrôle, l’Assurance maladie intervient sur ce sujet essentiellement sur la base de signalements par des tiers ou à l’occasion de contrôles ponctuels et aléatoires de la facturation de certains chirurgiens-dentistes.
De façon générale, l’Assurance Maladie agit encore trop avec retard alors qu’elle pourrait par une meilleure exploitation de ses données de remboursement agir en amont pour détecter les facturations suspectes présentées au remboursement comme le font désormais certaines compagnies d’assurance.
A partir d’un extrait de notre base de données remboursement anonymisé et de facturation type, il est proposé à l’équipe de chercheurs en mathématiques et informatique de travailler à la structure d’un modèle permettant un meilleur repérage des facturations potentiellement suspectes.

MaDICS

Masses de Données, Informations et Connaissances en Sciences

Big Data - Data Science

SEEDS@MaDICS 2023