DSChem

 

Atelier DSChem(2022)

Data Science in Chemistry

Responsables

Correspondant ComDIR : Bernd Amann

Thématiques

Chemoinformatique (exploration de l’espace chimique, prédiction des propriétés et des activités des molécules, étude et prédiction des mécanismes, prédiction de structures moléculaires), Data science (accès aux bases de données, traitement des données, intelligence artificielle, choix des modèles, des paramètres et leur validation)

Données concernées

bases de données chimiques, données chémogénomiques donnant à la fois les structures des ligands et leur réponse biologique, données de pharmacovigilance, données analytiques (spectres de masse, de RMN, données cinétiques, rendements, sélectivités, ….)

Mots clés

data science, machine learning, data-mining, structure/property/activity relationships, molecular graphics, computer vision, reaction mechanism investigations, drug discovery and design, chemoinformatics, bioinformatics

Contexte scientifique

L’atelier DSChem vise à favoriser les échanges entre chimistes et informaticiens.

Rapidement, DSChem sera un canal de diffusion interdisciplinaire, informant les chimistes des avancées et possibilités offertes par la recherche informatique, et facilitant l’identification d’informaticiens pouvant travailler sur un problème soulevé par la recherche en chimie.

Les échanges porteront sur une grande variété de thèmes comme l’accès aux données (par exemple, le ‘federate learning’), la conception et l’utilisation des bases de données chimiques, le développement d’algorithmes permettant un traitement efficace des données chimiques car celles-ci peuvent être très variées (graphes 2D/3D, nuage de points, données textuelles structurées ou non et de qualité variable), choix des modèles IA, de leurs paramètres et de leur validation, la modélisation moléculaire, la conception de nouveaux matériaux assistée par ordinateur, la réalisation d’environnement informatique dédiés à la synthèse chimique, ldots En s’appuyant sur des réunions et des échanges réguliers, DSChem pourra aussi constituer un outil de veille scientifique, ainsi qu’un vecteur de diffusion des avancées, notamment concernant les possibilités de traitement des données.

DSChem vise à permettre les échanges autour de la donnée chimique et de ses possibilités de traitement, son thème s’accorde avec le périmètre de MaDICS.

La production actuelle de données engendrée par la chimie est considérable, tant au niveau des volumes concernés, qu’au niveau de la diversité des données et des problèmes d’analyse à résoudre.
En amont, la détermination de la structure d’une molécule peut résulter d’une mesure de spectroscopie de masse, modélisée comme un signal.
Une fois leur structure déterminée, une molécule est usuellement représentée par un graphe aux sommets et arêtes étiquetées, voire sous la forme d’un ensemble de plusieurs conformations possibles.
A partir de là, il est usuel de calculer une empreinte de la molécule, grande description binaire marquant la présence de groupes chimiques donnés ou de représenter sa forme par un nuage de points 3D. La représentation chimique est une composante pleinement étudiée au sein du GdR BigDataChim, partie prenante de DSChem.

A partir de cette grande variété de données, les questions posées sont nombreuses depuis l’élucidation de la structure jusqu’à la proposition de nouvelles molécules possibles, en passant par l’association de traits structuraux d’une molécule avec une propriété physicochimique ou une activité biologique voire pharmacologique (ensemble d’activités biologiques et de propriétés pharmacocinétiques). Le développement de méthodes et d’algorithmes pour traiter des systèmes complexes tel que celui de la pharmacologie nécessite de mettre en place des collaborations entre spécialistes de la chémoinformatique, de la modélisation numérique et des statistiques.
Si on ajoute à cela que les analyses ont pour objectifs de permettre aux chimistes d’optimiser leur démarche de découverte de connaissances à partir des données disponibles, DSChem relaiera des besoins applicatifs concrets, souvent liés à questions informatiques actuelles.

Ainsi, DSChem sera un vecteur très intéressant pour le développement d’une communauté mixte rassemblant chimistes et informaticiens.

 

Site de l’Atelier DSChem en cours de construction…


Évènements à venir