Amélioration d’un algorithme d’apprentissage automatique pour la reconnaissance de polluants fluorés

When:

28/02/2022 – 01/03/2022 all-day

2022-02-28T01:00:00+01:00

2022-03-01T01:00:00+01:00

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : CASC4DE
Durée : 6 mois
Contact : mad@casc4de.eu
Date limite de publication : 2022-02-28

Contexte :
CASC4DE est une entreprise spécialisée dans le développement de méthodes analytiques ainsi que dans l’ingénierie de logiciels et de données. Nous développons des solutions innovantes pour relever les défis de la gestion et du traitement de grands ensembles de données analytiques en combinant des compétences interdisciplinaires dans les domaines de la biochimie, des mathématiques et des sciences des données. En outre, la société mène sa R&D dans l’esprit de la science ouverte (données F.A.I.R. si possible) et de l’open-source (logiciels libres et indépendants). CASC4DE propose également des services pour répondre aux problématiques analytiques des clients. Nous proposons des approches multi-analytiques avec un accès à des techniques avancées de Résonance Magnétique Nucléaire (19F fluor, RMN 2D, 3D) ou de Spectrométrie de Masse (FTICR MS, 2D FTMS).

Sujet :
Le fluor est un élément commun mais non métabolisé dans les organismes vivants. Il fait partie de molécules artificielles largement utilisées dans l’industrie et les produits de consommation courante. Les molécules fluorées sont extrêmement résistantes et couramment utilisées dans la synthèse de produits, elles font partie des polluants de l’environnement et sont plus particulièrement connues sous le nom de POP (polluants organiques persistants). Des normes existent pour limiter la quantité de molécules fluorées présentes dans l’environnement mais aucune technique complète n’existe pour le moment pour détecter et identifier ces polluants fluorés. L’idée du projet ANR “FLUOVIAL” est d’atteindre cet objectif en utilisant la RMN 19F.
Le projet est conçu en plusieurs phases :
– acquisition de données RMN 19F de composés fluorés connus
– application d’algorithmes spécialement conçus pour le prétraitement des données
– développement d’un algorithme d’apprentissage automatique (Random Forest) sur les spectres prétraités pour effectuer une classification par molécules
– application de l’algorithme entraîné à des composés inconnus pour détecter et identifier les molécules fluorées
Ce projet sert de base au projet IPANEMA (https://www6.paca.inrae.fr/emmah/Equipes-de-recherche/Equipe-DISCOVE/Projets-en-cours/IPANEMA) financé par l’ADEME qui vise à développer des outils permettant de mieux prévoir le devenir dans les sols des polluants perfluorés (PFAS), très utilisés dans l’industrie.
L’algorithme Random Forest (RF) a été choisi parmi la grande quantité d’algorithmes d’apprentissage automatique disponibles et applicables dans le cas présent car il a fourni de bons résultats préliminaires. La RF est un algorithme d’apprentissage supervisé, avec tous les échantillons étiquetés, basé sur de multiples arbres de décision à partir desquels une prédiction finale est faite par un vote entre chaque arbre individuel. L’algorithme développé et optimisé a donné de bons résultats sur les exemples de la base de données, atteignant plus de 90% de bonnes prédictions.
L’idée durant le stage serait d’améliorer l’outil d’apprentissage automatique développé en :
– ajoutant des outils d’analyse de la Random Forest, notamment pour la recherche et l’évaluation des critères déclenchant la décision de classification
– mettant en évidence graphiquement les zones du spectre qui ont déclenché la décision de la Random Forest
– proposant la superposition du spectre expérimental inconnu, et des spectres de référence
– effectuant éventuellement une nouvelle optimisation de l’algorithme
– permettant l’analyse sur des mélanges

Profil du candidat :
Etudiant de M2 ou cycle ingénieur portant un intérêt aux méthodes d’analyses de données automatiques.

Formation et compétences requises :
Compétences de programmation en langage Python – Familiarité avec l’environnement Jupyter.

Adresse d’emploi :
Pôle API – Boulevard Sébastien Brant – 67400 Illkirch-Graffenstaden

Contacts: mad@casc4de.eu, laura.duciel@casc4de.eu

MaDICS

Masses de Données, Informations et Connaissances en Sciences

Big Data - Data Science

Amélioration d’un algorithme d’apprentissage automatique pour la reconnaissance de polluants fluorés