Méthodes computationnelles pour le traitement de données de protéomiques haut-débit : application au démultiplexage de signaux de spectrométrie de masse

When:
01/04/2016 – 02/04/2016 all-day
2016-04-01T02:00:00+02:00
2016-04-02T02:00:00+02:00

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : CEA de Grenoble – Laboratoire EDyP
Durée : 3 ans
Contact : thomas.burger@cea.fr
Date limite de publication : 2016-04-01

Contexte :
Avec l’avènement des outils à haut débit d’analyse, de nombreux laboratoire de biologie se retrouvent confrontés à un déluge de données, dont le débit surpasse les capacités de traitement (problème du big data). Cela nécessite la mise en place d’algorithmes capable de passer à l’échelle (en termes de complexité, de parcimonie, et de stabilité numérique). Concrètement, de nombreux algorithmes classiques de débruitage, de projection (à des fins de visualisation), de partitionnement ou d’analyse statistique ne sont plus utilisables, et doivent être « réinventés » pour correspondre à ces nouveaux besoins.

Sujet :
L’étudiant(e) recruté(e) devra participer à la mise en place d’un algorithme de factorisation de matrice sous contrainte de parcimonie, de complexité linéaire, tout en garantissant une stabilité numérique suffisante. Ensuite, l’étudiant inclura cet algorithme dans un pipe-line de séquençage de protéines (avec l’aide d’ingénieurs protéomiciens), au sein duquel il permettra de résoudre de manière optimale un problème de séparation de sources aveugle. En effet, dans ce pipe-line expérimental, plusieurs protéines peuvent être co-analysées simultanément via un spectromètre de masse, le spectrogramme résultant devenant inexploitable. Grâce au travail de l’étudiant(e), il sera possible de reconstruire à la volée les différents spectrogrammes des différentes protéines à partir du seul spectre «multiplexé» (jusqu’à 20 000 spectres sont produits par heures), améliorant considérablement la qualité et la couverture du séquençage. Au-delà de ce cas d’étude, notre objectif et d’amener l’étudiant(e) à devenir un(e) chercheur(se) autonome dans le développement de méthodes d’analyse « biological big data », un domaine de recherche clefs (pour le monde industriel comme académique) de la décennie à venir.

Profil du candidat :
Le sujet étant interdisciplinaire, nous considérons les candidatures d’origines variées. L’étudiant(e) devra être en dernière année de master ou d’école d’ingénieur dans l’un des domaines suivants:
– Statistique (apprentissage automatique ou analyse de données)
– Mathématiques appliquées (analyse numérique)
– Physique (avec de bonnes compétences en algèbre linéaire)
– Traitement du signal
Une part importante du travail étant formelle, les candidats ayant suivi un cursus de biologie complété par une spécialisation en bioinformatique ou biostatistique ne seront pas considérées (aucune connaissance en protéomique ou en biologie n’est nécessaire pour candidater).

Formation et compétences requises :
Des compétences en programmation orientée objet, et un intérêt pour les applications biologiques ainsi que pour le travail interdisciplinaire sont nécessaires.

Adresse d’emploi :
Prendre contact avec les encadrants (ci-dessous) avant le 20 mars 2016
• Thomas Burger (thomas.burger@cea.fr; https://sites.google.com/site/thomasburgerswebpage/home), encadrant
• Thomas Fortin (thomas.fortin@cea.fr), co-encadrant
• Myriam Ferro (myriam.ferro@cea.fr; http://www.edyp.fr/), directrice du laboratoire et HDR
• http://www-instn.cea.fr/formations/formation-par-la-recherche/doctorat/liste-des-sujets-de-these.html

Document attaché : phd-cea-biologicalbigdata.pdf