Explicabilité des décisions d’un GNN, application à la chémoinformatique

When:
28/02/2024 – 29/02/2024 all-day
2024-02-28T01:00:00+01:00
2024-02-29T01:00:00+01:00

Offre en lien avec l’Action/le Réseau : DSChem/– — –

Laboratoire/Entreprise : Groupe de recherche en informatique, image, automa
Durée : 6 mois
Contact : jean-luc.lamotte@unicaen.fr
Date limite de publication : 2024-02-28

Contexte :
Ce stage prend place dans une collaboration de longue date entre trois laboratoires :
1. Le GREYC (UMR 6072, Caen), a développé au cours des années une expertise forte en fouille de données et apprentissage appliqué à la Chemoinformatique,
2. Le CERMN (UR 4258, Caen) est le centre d’études et de recherche sur le médicament de Normandie et entretient depuis de nombreuses années une collaboration avec le GREYC sur l’analyse informatique de molécules pour créer de nouveaux médicaments,
3. Le LITIS (UR 4108, Rouen), a acquis une solide expérience en apprentissage machine qu’il applique notamment sur des bases de graphes.
Le GREYC et le LITIS collaborent activement au sein de la fédération NormaSTIC.

Des membres des trois laboratoires participeront à l’encadrement du stage en y apportant leurs compétences respectives.

Ce stage peut être considéré comme une étape préparatoire à une thèse de doctorat sur le même sujet.

Sujet :
Le stage commencera par une étude des méthodes GNN permettant de prédire les propriétés de nos jeux de données. L’étude sera ciblée sur la prédiction des interactions protéines/ligands à partir des structures des molécules. A
cette occasion, des méthodes basées GCN, au sens large, et GCN+pooling seront étudiées.

Si cette étape est validée, nous aborderons une comparaison des méthodes de la littérature permettant d’expliquer les résultats de ces GNNs. Les résultats produits (en termes d’explication) seront évalués en utilisant plusieurs critères tels que l’accuracy, l’aire sous la courbe, la fidélité, la parcimonie,. . .. Nous espérons identifier à partir de cette étude des sous structures pharmacophoriques pertinentes pour les propriétés à prédire.

Nous essaierons, dans un troisième temps, d’appliquer ces méthodes sur les graphes moléculaires squelettiques. Il s’agira de comparer sous l’angle de l’explicabilité les descriptions moléculaires ”brutes” et celles produites en intégrant une expertise du domaine via le graphe pharmacophorique.

Profil du candidat :
Le candidat doit être inscrit en dernière année d’un Master ou d’un diplôme d’ingénieur dans un domaine lié à l’informatique ou aux mathématiques appliquées, et posséder de solides compétences en programmation. Une expérience en informatique pour la Science des Données, apprentissage profond, notamment sur graphes, sera un plus.

Formation et compétences requises :
Le candidat doit être inscrit en dernière année d’un Master ou d’un diplôme d’ingénieur dans un domaine lié à l’informatique ou aux mathématiques appliquées, et posséder de solides compétences en programmation.

Adresse d’emploi :
Le stage sera effectué au GREYC (Caen) ou au LITIS (Rouen) en fonction du lieu de recrutement de l’étudiant. Il débutera en février ou mars 2024 pour une durée de 6 mois et bénéficiera d’une gratification au tarif minimum réglementaire pour les stages.

Document attaché : 202312181731_stageMasterGNN-chemo.pdf