High-Dimensional Machine Learning with Multiple Measurement Data Vectors

When:
01/12/2019 – 02/12/2019 all-day
2019-12-01T01:00:00+01:00
2019-12-02T01:00:00+01:00

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : Univeristé de Lille – Laboratoire CRIStAL
Durée : 36 mois
Contact : remy.boyer@univ-lille.fr
Date limite de publication : 2019-12-01

Contexte :
Nom et prénom du directeur de thèse : Boyer Rémy
Web (old) :http://www.l2s.centralesupelec.fr/perso/remy.boyer
Web (new): https://www.cristal.univ-lille.fr/profil/remyboyer?lang=en

Nom et prénom du co-encadrant de thèse : Boulanger Jérémie

Nom du laboratoire d’accueil du directeur: CRIStAL – UMR 9189

Date de l’obtention de l’habilitation à diriger des recherches du directeur: 11/2012

Adresse du directeur: Cité Scientifique, bâtiment P2, 59655 Villeneuve d’Ascq Cedex

Téléphone du directeur : 0320434567

E-mail du directeur: remy.boyer@univ-lille.fr

E-mail du co-encadrant: jeremie.boulanger@univ-lille.fr

Sujet :
Un nombre sans cesse croissant de données de grande dimensionnalité sont générées quotidiennement dans de nombreuses applications. Cela mène à une forte demande pour des algorithmes capables d’extraire de l’information utile à partir de cette masse de donnée. L’apprentissage automatique s’intéresse au développement de tels algorithmes qui soient capables d’apprendre à partir de ces données. Les applications classiques de ce genre de techniques vont du traitement automatique de catégorisation de texte, de la classification entre différent types de données, de prédictions météorologiques, de recommandations de contenu sur différentes plate-formes de VOD ou de musique en ligne au filtrage de courriers électroniques indésirables… Les réseaux neuronaux constituent à cet égard un puissant outil pour l’apprentissage automatique [1,2] capables de traiter des cas de données non linéaires. Dans le cas de mesures multiples, les données observées sont généralement multidimensionnelles et peuvent être vues comme des vecteurs de mesures multiples (MMV). Le but est alors de classifier les données dans une des catégories. Dans ce cas, on définit le tenseur généralisant la sortie d’une couche neuronale et la fonction de score associée. Il est à noter que des fonctions de coût similaires ont déjà été considérées dans les articles [6,7].

La factorisation de tenseurs [9] et l’utilisation de l’apprentissage profond se sont rapidement développées dans de nombreux domaines scientifiques tels que la psychologie, la chimie, les neurosciences, le traitement du signal, le traitement des images, la bio-informatique ou encore la fouille de données [8]. De nombreuses modalités et paramètres sont généralement présents dans tous les cas pratiques de mesure de données, tels que les conditions d’acquisitions, les canaux enregistrés, l’échantillonnage temporel et spatial, la température,…

De puissants outils mathématiques de l’algèbre des tenseurs peuvent être utilisés pour extraire des caractéristiques pertinentes à partir de transformations linéaires. Malheureusement, la complexité en terme de stockage et la complexité calculatoire sont exponentielles avec la dimension ou le nombre de paramètres. Le travail proposé se décompose en deux parties :

– L’exploration de méthodes avancées de factorisation tensorielles [10] pour limiter les problèmes liés à la dimensionnalité.

– Proposer de nouveaux algorithmes pour la rétro-propagation de gradient adaptés à la topologie de la décomposition de tenseur sur les graphes. Étant donné que cette partie de l’apprentissage automatique possède un coût calculatoire important, l’utilisation de la décomposition des tenseurs sur graphe devrait donner lieu à des méthodes avec des complexités bien moindre que l’implémentation directe.

1] Y. LeCun, B. E Boser, J. S Denker, D. Henderson, R. E Howard, W. E Hubbard, and L. D Jackel. Handwritten digit recognition with a back-propagation network. In Advances in neural information processing systems, pp. 396-404, 1990.

[2] Y. LeCun, Y. Bengio, et al. Convolutional networks for images, speech, and time series. The hand-book of brain theory and neural networks, 3361(10) :1995

[3] D.L. Donoho (2000). High-dimensional data analysis : The curses and blessings of dimensionality. AMS Math Challenges Lecture, 1, 32 pages.

[4] R. Boyer, R. Badeau and G. Favier, Fast Orthogonal Decomposition Of Volterra Cubic Kernels Using Oblique Unfolding, IEEE, Proc. of International Conference on Acoustics, Speech, and Signal, Processing, (ICASSP’11)

[5] JH. Goulart, M. Boizard, R., Boyer, G., Favier, and P. Comon, Tensor CP Decomposition with Structured Factor Matrices : Algorithms and Performance, IEEE Journal of Selected Topics in Signal Processing, Volume 10, No. 4, June, 2016, pp. 757-769.

[6] N. Cohen, O. Sharir, and A. Shashua. On the expressive power of deep learning : A tensor analysis. In Conference on Learning Theory, pp. 698-728, 2016.

[7] E. Stoudenmire and D. J Schwab. Supervised learning with tensor networks. In D. D. Lee, M. Sugiyama, U. V. Luxburg, I. Guyon, and R. Garnett (eds.), Advances in Neural Information Processing Systems 29, pp. 4799-4807. Curran Associates, Inc., 2016.

[8] N. D. Sidiropoulos, L. De Lathauwer, X. Fu, K. Huang, E.E. Papalexakis, and C. Faloutsos, (2017) Tensor decomposition for signal processing and machine learning. IEEE Transactions on Signal Processing, 65(13), 3551-3582.

[9] A. Cichocki et al., Tensor decompositions for signal processing applications : From two-way to multiway component analysis, IEEE Signal Process. Mag., vol. 32, no. 2, pp. 145-163, Mar. 2015.

[10] I. V. Oseledets, Tensor-Train decomposition, SIAM J. Scientific Computing, vol. 33, no. 5, pp. 2295-2317, 2011.

Profil du candidat :
Des compétences en statistiques, algèbre et apprentissage automatique sont souhaitées. Le candidat devra avoir un intérêt pour la recherche méthodologique et académique.

Formation et compétences requises :
Master de recherche ou spécialisation d’école d’ingénieurs dans le domaine des sciences des données ou/et en statistiques en grande dimension.

Adresse d’emploi :
CRIStAL – UMR 9189
Cité Scientifique
59655 Villeneuve d’Ascq Cedex

Document attaché : Tensorized-NN_PhD_Subject.pdf