Action DSChem (2022-2024)
Data Science in Chemistry
Responsables
- Dominique Douguet, IPMC, INSB
- Nicolas Blanchard, LIMA, INC
- Bertrand Cuissart, GREYC, INS2i
Correspondant ComDIR : Bernd Amann
Thématiques
Données concernées
Mots clés
Contexte scientifique
Rapidement, DSChem sera un canal de diffusion interdisciplinaire, informant les chimistes des avancées et possibilités offertes par la recherche informatique, et facilitant l’identification d’informaticiens pouvant travailler sur un problème soulevé par la recherche en chimie.
Les échanges porteront sur une grande variété de thèmes comme l’accès aux données (par exemple, le ‘federate learning’), la conception et l’utilisation des bases de données chimiques, le développement d’algorithmes permettant un traitement efficace des données chimiques car celles-ci peuvent être très variées (graphes 2D/3D, nuage de points, données textuelles structurées ou non et de qualité variable), choix des modèles IA, de leurs paramètres et de leur validation, la modélisation moléculaire, la conception de nouveaux matériaux assistée par ordinateur, la réalisation d’environnement informatique dédiés à la synthèse chimique, ldots En s’appuyant sur des réunions et des échanges réguliers, DSChem pourra aussi constituer un outil de veille scientifique, ainsi qu’un vecteur de diffusion des avancées, notamment concernant les possibilités de traitement des données.
DSChem vise à permettre les échanges autour de la donnée chimique et de ses possibilités de traitement, son thème s’accorde avec le périmètre de MaDICS.
La production actuelle de données engendrée par la chimie est considérable, tant au niveau des volumes concernés, qu’au niveau de la diversité des données et des problèmes d’analyse à résoudre.
En amont, la détermination de la structure d’une molécule peut résulter d’une mesure de spectroscopie de masse, modélisée comme un signal.
Une fois leur structure déterminée, une molécule est usuellement représentée par un graphe aux sommets et arêtes étiquetées, voire sous la forme d’un ensemble de plusieurs conformations possibles.
A partir de là, il est usuel de calculer une empreinte de la molécule, grande description binaire marquant la présence de groupes chimiques donnés ou de représenter sa forme par un nuage de points 3D. La représentation chimique est une composante pleinement étudiée au sein du GdR BigDataChim, partie prenante de DSChem.
A partir de cette grande variété de données, les questions posées sont nombreuses depuis l’élucidation de la structure jusqu’à la proposition de nouvelles molécules possibles, en passant par l’association de traits structuraux d’une molécule avec une propriété physicochimique ou une activité biologique voire pharmacologique (ensemble d’activités biologiques et de propriétés pharmacocinétiques). Le développement de méthodes et d’algorithmes pour traiter des systèmes complexes tel que celui de la pharmacologie nécessite de mettre en place des collaborations entre spécialistes de la chémoinformatique, de la modélisation numérique et des statistiques.
Si on ajoute à cela que les analyses ont pour objectifs de permettre aux chimistes d’optimiser leur démarche de découverte de connaissances à partir des données disponibles, DSChem relaiera des besoins applicatifs concrets, souvent liés à questions informatiques actuelles.
Ainsi, DSChem sera un vecteur très intéressant pour le développement d’une communauté mixte rassemblant chimistes et informaticiens.