Thèse en apprentissage: Forêts aléatoires et apprentissage dans les espaces de dissimilarités: application à la prédiction en cancérologie par association de la radiomique et de la génomique

When:
15/09/2016 – 16/09/2016 all-day
2016-09-15T02:00:00+02:00
2016-09-16T02:00:00+02:00

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : LITIS- EA 4108, Université de Rouen
Durée : 3 ans
Contact : Laurent.Heutte@univ-rouen.fr
Date limite de publication : 2016-09-15

Contexte :
La ”radiomique”, concept énoncé récemment par Lambin et al. [LRVL+12], est définie comme l’extraction et l’analyse d’un grand nombre de caractéristiques quantitatives image provenant d’examens comme la TomoDensitoMétrie (TDM), la Tomographie par Emission de Positons (TEP) ou l’Imagerie par Résonance Magnétique (IRM), mais également des données cliniques et omiques (génomiques, protéomiques, etc..). Ces données peuvent être utilisées pour construire des modèles descriptifs et prédictifs reliant les caractéristiques ”images” au phénotype ou aux signatures génétiques-protéiques du cancer. L’hypothèse centrale de la radiomique est que ces modèles peuvent fournir des informations de diagnostic, de pronostic ou prédictives précieuses pour la prise en charge efficace du cancer (prédiction de survie d’un patient et/ou de sa réponse à un traitement).
Cette thèse s’intéresse à la problématique ”machine learning” de l’apprentissage de modèles prédictifs dans des espaces de grande dimension et particulièrement hétérogènes. La piste de recherche qui sera abordée en particulier est l’apprentissage dans des espaces de dissimilarités, qui permettent de projeter les données décrites initialement dans ces espaces mélangeant des variables de différents types (numériques, nominales, séquences…) dans des espaces plus homogènes, offrant ainsi la possibilité de construire des fonctions de prédiction plus robustes.

La construction de ces modèles doit faire face à un verrou majeur, celui de la prise en compte d’une masse importante de données par nature très hétérogènes. En effet, les données cliniques concernent aussi bien des données démographiques que des données médicales collectées lors des différentes consultations ou à partir de comptes-rendus médicaux. De même, les données génomiques peuvent être factuelles ou textuelles et de natures variées. Enfin les données ”images” proviennent de l’analyse d’images issues de différentes modalités d’imagerie. L’objectif dans cette thèse est d’appréhender la construction de ces modèles sous l’angle de l’apprentissage automatique (machine learning) qui doit permettre de lever les deux verrous identifiés dans ce contexte de prédiction à partir de données hétérogènes : (i) celui lié à l’apprentissage et à la sélection des représentations pertinentes selon les trois types de données à disposition (image, clinique et génomique) ; (ii) celui lié à l’apprentissage automatique d’une méthode prédictive permettant l’émergence d’informations personnalisées pour la thérapie (interprétabilité du modèle).
Ces questions liées à l’hétérogénéité des données seront abordées sous l’angle de l’apprentissage dans des espaces de dissimilarités, qui permettent de s’affranchir de la recherche d’une représentation ”optimale” des données lorsque les données sont décrites dans des espaces de grande dimension
mélangeant des variables de différents types (numériques, nominales, séquences,…). Disposant de n données brutes, originellement décrites par p variables, un espace de dissimilarité est un espace à n dimensions, pour lequel la dimension k caractérise la dissemblance avec la dissemblance avec la k-ième donnée. Ce concept, appelé dissimilarity-based pattern recognition [PD05], offre une alternative intéressante pour l’apprentissage notamment dans des espaces de très grande dimension (p >> n) puisque les données d’apprentissage sont projetées dans un espace de plus faible dimension (n), ce qui autorise alors l’utilisation d’un large éventail d’algorithmes d’apprentissage. Toutefois, le problème central réside dans la recherche et le développement de métriques adaptées capables de mettre en évidence les dissimilarités entre les données. Notamment lorsque les données brutes proviennent de différentes vues (ce qui est le cas par exemple dans le contexte de la radiomique où des informations cliniques, génomiques et diagnostiques par analyse d’images sont collectées pour chaque patient), il est impossible de définir une métrique unique, sur un ensemble hétérogène de variables, permettant de rendre compte de ces dissimilarités. Tout au plus pouvons nous en définir une par vue.

Sujet :
Nous envisageons de répondre à ces questions de choix des mesures de dissimilarités sous l’angle de l’apprentissage de métriques au moyen des forêts aléatoires, des techniques de classification basées sur des ensembles d’arbres de décision pour lesquelles nous avons des compétences établies et reconnues [BHA12, DBHP13]. Nous étudierons notamment comment elles peuvent être utilisées pour générer ces espaces de dissimilarités. Elles semblent en effet bien adaptées à cette problématique puisqu’elles intègrent naturellement dans leur construction un processus de sélection des variables pertinentes, ainsi que des capacités à gérer des variables de différents types et qui peuvent contenir des valeurs manquantes. Elles intègrent également naturellement des mécanismes de calcul de proximité entre objets pouvant être mis à profit dans le cadre applicatif de la radiomique pour générer des espaces de dissimilarités dédiés. Ces mécanismes de calcul de proximité ont déjà montré leur efficacité et leur flexibilité dans différents problèmes d’apprentissage [TPC06, SH06]. Ils sont par ailleurs très utilisés dans le domaine médical car les forêts exploitent naturellement les co-dépendances entre les variables, permettent efficacement de traiter des problèmes à très grandes dimensions, et fournissent une excellente interprétabilité. Cette interprétabilité permet bien souvent de fournir au corps médical des informations précieuses sur l’apport de chaque variable de l’espace d’origine (caractéristique ”image”, génomique, clinique) à la problématique d’apprentissage, et sur la nature de cette contribution [SH06].

Par essence pluri-disciplinaire, la thèse sera l’objet d’une collaboration étroite avec deux autres équipes du LITIS : l’équipe TIBS pour la partie données génomiques et données cliniques et l’équipe QuantIF pour la partie portant sur les données images. Les trois équipes du LITIS collaboreront également avec l’U918 (INSERM, Université de Rouen, Centre Henri Becquerel). Enfin, ces recherches feront l’objet d’une collaboration avec l’ETS de Montréal au Canada (Prof. Robert Sabourin), et pourraient également s’inscrire dans le cadre d’une collaboration avec la Federal University of Parana au Brésil (Prof. Luiz E.S. Oliveira).

Références:
[BHA12] S. Bernard, L. Heutte, and S. Adam. Dynamic Random Forests. Pattern Recognition Letters, 33 :1580–1586, 2012.
[DBHP13] C. Désir, S. Bernard, L. Heutte, and C. Petitjean. One-Class Random Forest. Pattern Recognition, 46(12) :3490–3506, 2013.
[LRVL+12] Philippe Lambin, Emmanuel Rios-Velazquez, Ralph Leijenaar, Sara Carvalho, Ruud G.P.M. van Stiphout, Patrick Granton, Catharina M.L. Zegers, Robert Gillies, Ronald Boellard, André Dekker, and Hugo J.W.L. Aerts. Radiomics : Extracting more information from medical images using advanced feature analysis. European Journal of Cancer, 48(4) :441 – 446, 2012.
[PD05] Elzbieta Pekalska and Robert P. W. Duin. The Dissimilarity Representation for Pattern Recognition : Foundations And Applications (Machine Perception and Artificial Intelligence). World Scientific Publishing Co., Inc., River Edge, NJ, USA, 2005.
[SH06] T. Shi and S. Horvath. Unsupervised Learning with Random Forest Predictors. Journal of Computational and Graphical Statistics, 15 :118–138, 2006.
[TPC06] Alexey Tsymbal, Mykola Pechenizkiy, and Padraig Cunningham. Machine Learning : ECML 2006 : 17th European Conference on Machine Learning Berlin, Germany, September 18-22, 2006 Proceedings, chapter Dynamic Integration with Random Forests, pages 801–808. Springer Berlin Heidelberg, Berlin, Heidelberg, 2006.

Profil du candidat :
Master 2 en informatique, mathématiques appliquées, ou école d’ingénieur

Formation et compétences requises :
Le candidat recherché doit être titulaire d’un Master (ou équivalent) dans le domaine des Statistiques, de l’Informatique ou du Génie Informatique avec une dominante Sciences des Données ou Traitement du Signal et des Images. Il doit avoir de solides connaissances en apprentissage et classification.

Adresse d’emploi :
Equipe d’accueil:
Equipe Apprentissage, laboratoire LITIS (EA 4108), Université de Rouen
http ://www.litislab.fr/equipe/docapp/

Encadrement :
Laurent HEUTTE (directeur), laurent.heutte@univ-rouen.fr, (+33) 2 32 95 50 14
Simon BERNARD (co-encadrant), simon.bernard@univ-rouen.fr, (+33) 2 32 95 52 05

Financement :
Allocation de recherche de la région Normandie (financement obtenu pour la période du 01/10/2016 au 30/09/2019)

Document attaché : subject.pdf