DÉTECTION DE SIGNATURE MOLÉCULAIRE POUR LA STRATIFICATION DES PATIENTS PAR L’INTÉGRATION MULTI-ÉCHELLES DE DONNÉES HÉTÉROGÈNES.

When:

03/06/2024 – 04/06/2024 all-day

2024-06-03T02:00:00+02:00

2024-06-04T02:00:00+02:00

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LaBRI, Université de Bordeaux
Durée : 3 ans
Contact : thebault@labri.fr
Date limite de publication : 2024-06-03

Contexte :
Ce projet de thèse interdisciplinaire vise à proposer de nouvelles approches informatiques pour analyser et améliorer les connaissances actuelles sur les cancers digestifs, maladies souvent diagnostiquées tardivement et aux solutions thérapeutiques limitées. Une stratiﬁcation eﬃcace des patients nécessite la compréhension la plus exhaustive possible des mécanismes biologiques impliquant des données biologiques hétérogènes (génomique, transcriptomique, protéomique, communication intercellulaire, épigénomique …), étroitement interconnectées de façon hiérarchique, et des connaissances provenant de bases de données spécialisées. La modélisation et intégration de ces données hautement complémentaires et à forte combinatoire dans un système complexe est cruciale pour approcher la réalité biologique et améliorer la précision des connaissances sur les mécanismes mis en jeu.
Dans ce contexte, les objectifs de ce projets sont de (1) modéliser les données biologiques à partir d’un multiplex (graphe multi-couches) hétérogène mixte avec le double avantage de représenter par niveau chaque type de données biologiques avec leurs interactions tout en prenant en compte les relations entre chaque niveau en fonction des différentes classes de pathologies, (2) proposer de nouvelles méthodes d’identiﬁcation des voies de signalisation dérégulées basées par exemple sur la combinaison d’algorithmes de propagation de l’information et de détection de communautés dans chaque couche et entre elles aﬁn d’utiliser au mieux toutes les topologies spéciﬁques à chaque type de données tout en permettant de les relier et (3) déﬁnir et implémenter des approches de visualisation pour faciliter l’interprétation interactive des résultats en plaçant le/la biologiste ou bioinformaticien·ne au centre du processus d’analyse des données. Ces développements informatiques seront appliqués à des données hétérogènes (exome, protéomique, transcriptomique..) produites par le BRIC à partir d’une cohorte de patients atteints de cancers digestifs (pancréas, foie et rectum).

Sujet :

Un des grands déﬁs dans le domaine de la santé numérique est d’accompagner l’exploitation de grands jeux de données et de connaissances hétérogènes pour le développement de la médecine de précision. Cette médecine, dite personnalisée, permet notamment d’identiﬁer les sous-groupes de patients présentant des caractéristiques biologiques ou génétiques similaires en tenant compte des caractéristiques individuelles des patients, ce qui facilite le développement de traitements plus ciblés et eﬃcaces. Elle repose sur l’acquisition de données multi-omiques (génomique, transcriptomique…) couplées aux informations cliniques et biologiques des patients, générant ainsi un important volume et une grande diversité de données.

Face à cette grande hétérogénéité de données biologiques portant des informations différentes et complémentaires, de nombreux outils d’intégration de données multi-omiques ont été proposés ces dernières années. Cinq grandes familles de méthodes sont proposées: l’intégration précoce, mixte, intermédiaire, tardive et hiérarchique [1]. Nous nous intéressons particulièrement aux méthodes d’intégration mixte (transformation indépendante de chaque jeu de données en une représentation simple) et hiérarchique (inclusion des connaissances préalables des relations régulatoires entre les différents types de données). En effet, chaque type de données peut être représenté naturellement sous forme de graphes ce qui permet de simpliﬁer et débruiter ces données à grandes dimensions, ensuite l’utilisation de multiplex permet de connecter ces graphes tout en gardant l’aspect hiérarchique des relations entre les différentes molécules suivant le dogme central de la biologie moléculaire. La grande ﬂexibilité et la variété des graphes nous permettent aussi de pouvoir modéliser et rendre accessible l’abondance de connaissances bio-médicales présentent dans les nombreuses bases de données. HetioNet [2], par exemple, propose un graphe de connaissance multiplex hétérogène (11 types de nœuds et 24 types d’arêtes) récapitulant 29 bases de données. Plus récemment, BioCypher [3] propose une architecture modulaire, réutilisable et extensible permettant la construction et l’exploration de méta-graphes en utilisant des graphes de connaissance pré-construits à partir de chaque base de données (57 bases de données et 11 ontologies) ainsi que l’ajout de nouveaux modules.
A notre connaissance, il n’existe pas de méthode permettant de combiner les informations provenant des expériences omiques, chacune d’elle avec leurs propres propriétés et les relations non aléatoires entre elle et la mine d’information provenant des graphes de connaissance qui permettrait d’interpréter les perturbations observées dans les échantillons. De plus, le parcours de ces multiplex hétérogènes aﬁn d’identiﬁer les informations biologiques importantes provenant de chaque couche (topologie spéciﬁque aux type de données) et permettant une combinaison cohérente entre elles (hiérarchie et expertise biologique) est une question qui reste diﬃcile. De nombreuses approches de type marche aléatoire [4] ou marche aléatoire dirigée [5] ont été proposées, nous pensons cependant que le parcours des données issues des expériences pondèrent précisément les liens entre les molécules et devraient être utilisées dans cette tâche.

L’intégration de données reste donc une problématique majeure et l’utilisation de multiplex hétérogènes pour cette tâche semble une alternative naturelle, adaptative et tendance aux méthodes classiques de machine learning et d’apprentissage profond.

Nous allons nous intéresser en particulier aux cancers digestifs comme cas d’étude. Les cancers digestifs demeurent des pathologies de mauvais pronostic dont le diagnostic est souvent réalisé à un stade avancé et pour lequel les moyens thérapeutiques sont restreints.
Dans le but de développer des thérapies eﬃcaces, il est nécessaire de mieux comprendre la pathogenèse de ces cancers et d’identiﬁer des sous-groupes de patients. En effet, la stratiﬁcation des patients en catégories plus homogènes dans leurs étiologies, le proﬁl moléculaire de leur cancer et leur devenir permettront ensuite des prises en charge spéciﬁques diminuant le risque de complications tels que la résistance au traitement et de mortalité précoce.

1. Picard M, Scott-Boyer M-P, Bodein A, Périn O, Droit A. Integration strategies of multi-omics data for machine learning analysis. Computational and Structural Biotechnology Journal. 2021;19:3735–46.
2. Himmelstein DS, Baranzini SE. Heterogeneous Network Edge Prediction: A Data Integration Approach to Prioritize Disease-Associated Genes. Tang H, editor. PLoS Comput Biol. 2015;11:e1004259.
3. Lobentanzer S, Aloy P, Baumbach J, Bohar B, Carey VJ, Charoentong P, et al. Democratizing knowledge representation with BioCypher. Nat Biotechnol. 2023;41:1056–9.
4. Pio-Lopez L, Valdeolivas A, Tichit L, Remy É, Baudot A. MultiVERSE: a multiplex and multiplex-heterogeneous network embedding approach. Sci Rep. 2021;11:8794.
5. Liu W, Li C, Xu Y, Yang H, Yao Q, Han J, et al. Topologically inferring risk-active pathways toward precise cancer classiﬁcation by directed random walk. Bioinformatics. 2013;29:2169–77.
6. Feng S, Heath E, Jefferson B, Joslyn C, Kvinge H, Mitchell HD, et al. Hypergraph models of biological networks to identify genes critical to pathogenic viral response. BMC Bioinformatics. 2021;22:287.
7. Wilkinson MD, Dumontier M, Aalbersberg IjJ, Appleton G, Axton M, Baak A, et al. The FAIR Guiding Principles for scientiﬁc data management and stewardship. Sci Data. 2016;3:160018.
8. Lin D, Crabtree J, Dillo I, Downs RR, Edmunds R, Giaretta D, et al. The TRUST Principles for digital repositories. Sci Data. 2020;7:144.

Profil du candidat :
Etudiant(e) titulaire d’un master 2 de bioinformatique ou assimilé (ou informatique mais avec une forte inclination pour la biologie), disposant des compétences suivantes :
Connaissances en bioinformatique, (bio)statistique et biologie Maîtrise de l’environnement linux/unix
Maîtrise du langage R et d’un langage de programmation (python, C, …) Motivation pour évoluer dans un environnement pluridisciplinaire Rigueur et esprit de synthèse, ainsi que capacité à travailler en équipe.

Formation et compétences requises :

Adresse d’emploi :
LaBRI – Laboratoire Bordelais de Recherche en Informatique
Université de Bordeaux
351, cours de la Libération F-33405 Talence cedex.

MaDICS

Masses de Données, Informations et Connaissances en Sciences

Big Data - Data Science

DÉTECTION DE SIGNATURE MOLÉCULAIRE POUR LA STRATIFICATION DES PATIENTS PAR L’INTÉGRATION MULTI-ÉCHELLES DE DONNÉES HÉTÉROGÈNES.