MaDICS

2016

Thèses financées par l’ERC en traitement du signal et apprentissage statistique à l’IRIT, Toulouse

Dec 31 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : IRIT, Toulouse
Durée : 3 ans
Contact : cedric.fevotte@irit.fr
Date limite de publication : 2016-12-31

Contexte :
Thèses en décomposition matricielle pour l’analyse de données dans le cadre du projet ERC FACTORY (New paradigms for latent factor estimation), coordonné par Cédric Févotte à l’IRIT, Toulouse.

Sujet :
Applications en traitement du signal audio, télédétection, fouille de données; problèmes méthodologiques relevant de l’estimation statistique, l’optimisation et l’apprentissage de représentations.

Profil du candidat :
Background en machine learning, traitement du signal, statistiques ou discipline connexe.

Formation et compétences requises :
Détails à l’adresse

http://www.irit.fr/~Cedric.Fevotte/factory/announcement.pdf

Adresse d’emploi :
IRIT, Toulouse

Document attaché : erc_factory.pdf

Categories: theses

These CIFRE: Improving assisted e-commerce through user interaction analysis

Dec 31 2016 – Jan 1 2017 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : Université de Rennes 1, IRISA — Watcheezy
Durée : 3 ans
Contact : zoltan.miklos@irisa.fr
Date limite de publication : 2016-12-31

Contexte :
We have a PhD position available at

– University of Rennes 1 / IRISA and
– the company watcheezy http://fr.watcheezy.com/

(shared appointment), ideally starting from 1st October 2016

Sujet :
The Watcheezy Company offers a proactive solution to e-Commerce sites that enables an online sales consultant to identify and assist the visitors. This consultant should help and comfort the potential customer in the right moment through chat in order to facilitate a purchase on the site. The Watcheezy Company provides a pool of human salespersons who are solicited through a filtering mechanism. The current version of filtering relies on pre-defined rules and parameters.

Goal of research
The goal of the research is to develop user models that can be applied to adapt the filtering rules on demand, in real-time. The user models should rely on various data; in particular they should be derived from data analysis of user interaction traces of the e-commerce sites. Improved filtering is needed to better target the visitor, that is, we would like to target the cases where the interactions between the visitors and the consultants can most likely lead to a purchase. This automated and adaptive filtering mechanism should also assure a better and more efficient use of the pool of human salespersons.
Besides the improvements in filtering, we also would like to understand with the help of the developed models, which changes of the e-commerce site could improve the sales figures.

Challenges:
The solution should work in the context of Watcheezy: 18.000.000 page views a month, 1.500 sites assignments and up to 2000 concurrent connections in a human-sized computational environment. For the time being, the number of Internet users reached several million people, while the data to be taken into account are of various types (purchase history, social network, ad targeting…) and not limited.

Innovation:
We will develop predictive models that should automatically and adaptively select the site visitors where the involvement of the salespersons has the highest potential. Watcheezy application context requires particular predictive models, for various reasons: 1) while many techniques exists to analyze the user interaction data offline, we need a real-time on-the-fly prediction, 2) the involved e-Commerce sites as well as Watcheezy dispose a large body of marketing knowledge that they would like to include in the models. Specifically, if the would like to adjust the behavior of the filtering strategy based on their marketing strategies.

Methodology:
Traces of user behavior can be considered as time-series. Indeed, time series mining techniques can be used to analyze and predict user behavior [1]. Also, various techniques exist to adapt the ecommerce strategy based on user behavior and profiles [2], [3].
We will develop predictive models that can better orchestrate the interactions between the visitors and the agents. We will rely on machine learning techniques, such as deep learning [4], [5] and statistical predictive models [6]. We will then extend our models and include various contextual pieces of information, such as for example, e-commerce site content, user profiles, social networks, etc. In particular, we would like to enable that the filtering mechanism can be adjusted based on marketing knowledge or business strategies.

[1] Sakurai, Y., Matsubara, Y., Faloutsos, Ch. Mining and Forecasting Big Time-series Data. Tutorial, SIGMOD’2015.
[2] Ye Che, Dmitry Pavolv, John F. Canny. Large-scale behavioral targeting. KDD’2011.
[3] Yun Yan et al. How much can Behavioural Targeting Help Online Advertising? WWW’2009
[4] Zhang, W., Du, T., Wang, J. Deep Learning over Multi-field Categorical Data – A Case Study on User Response Prediction. Proceedings of the 38th European Conference on IR Research (ECIR’2016), pp. 45-57. Springer, 2016.
[5] Armando Vieira. Predicting online user behaviour using deep learning algorithms. http://arxiv.org/pdf/1511.06247.pdf
[6] Jiangtao Qui, Zhangxi Linm Yinghong Li. Predicting customer purchase behavior in the e-commerce context. Electron commerce Research (2015), 15:427-452. Springer.

Profil du candidat :
Master 2 or Engineer in Computer Science

Formation et compétences requises :
– Advanced data management (SQL, NoSQL solutions)
– Introductory courses in machine learning

Adresse d’emploi :
Rennes

Document attaché :

Categories: theses

Mar

Big Data et passage à l’échelle : vers une nouvelle approche de gestion de données intelligente et efficace

Mar 31 – Apr 1 all-day

Annonce en lien avec l’Action/le Réseau : Doctorants

Laboratoire/Entreprise : LIAS (ISAE-ENSMA, Poitiers)
Durée : 3 ans
Contact : amin.mesmoudi@univ-poitiers.fr
Date limite de publication : 2017-03-31

Contexte :
Traitement intelligent et efficace des Big Data

Sujet :
(voir les détails dans le document en pièce jointe)
Les systèmes classiques de gestion des bases de données et les techniques associées doivent être revisités [1, 2] afin de faire face aux nouveaux défis engendrés par les Big Data. D’ailleurs, les techniques permettant une utilisation efficace de nouvelles plateformes matérielles et logicielles représentent une étape importante pour le développement du “Big Data”. Dans cette thèse, les contributions scientifiques attendues sont liées principalement à 1) l’identification des bonnes abstractions pour capturer les nouveaux environnements d’exécution via une étude expérimentale, 2) le développement de nouvelles techniques qui supportent la parallélisation massive des traitements sur des grandes masses de données, et 3) la définition formelle des modèles de coûts pour évaluer l’efficacité des algorithmes utilisés dans les plateformes technologiques modernes.

Références

[1] Amin Mesmoudi, Mohand-Saïd Hacid, Farouk Toumani: Benchmarking SQL on MapReduce systems using large astronomy databases. Distributed and Parallel Databases 34(3): 347-378 (2016)

[2] Ladjel Bellatreche, Pedro Furtado, Mukesh K. Mohania: Special Issue in Physical Design for Big Data Warehousing and Mining. Distributed and Parallel Databases 34(3): 289-292 (2016)

Profil du candidat :
Le candidat doit avoir un master ou un diplôme d’ingénieur en Informatique.

Formation et compétences requises :
Les candidats intéressés sont invités à envoyer, avant le 31/03/2017, aux encadrants (Prof. Ladjel Bellatreche – ladjel.bellatreche@ensma.fr et Dr. Amin Mesmoudi – amin.mesmoudi@univ-poitiers.fr) les documents suivants :

– Un CV (avec les coordonnées d’au moins deux personnes, pouvant être contactées pour une éventuelle recommandation).

– Les notes des deux dernières années d’études

– Une lettre de motivation

Adresse d’emploi :
LIAS/Site de l’ENSMA
Téléport 2 – 1 avenue Clément Ader
BP 40109
86961 Futuroscope Chasseneuil Cedex – France

Document attaché : idd-lias-big-data-2017.pdf

Categories: theses

Apr

Probabilistic study of instantiated gaussian processes and application to spatio-temporal data

Apr 15 – Apr 16 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : Institut Camille Jordan
Durée : 3 ans
Contact : tugaut@math.cnrs.fr
Date limite de publication : 2017-04-15

Contexte :
The thesis will take place in the Saint-Etienne part of Camille Jordan Institute. The research will be undertaken in the context of an interdisciplinary project involving also Hubert Curien Laboratory from the University Jean Monnet of St Etienne.

The consortium has scientific expertise on probability and
statistics, information and image processing, and machine learning, providing a stimulating scientific environment for this
thesis.

Sujet :
Gaussian processes are non-linear models of continuous random processes which are widely used to describe numerical data as sounds, images, videos, etc. (see for e.g. [W08,Z16]).

A Gaussian process is defined mainly by its expectation function and its covariance function (the kernel).

The description of the kernel using parametric functions and the estimation of these parameters form the focus of many recent works [L05,D16].

In the context of image sequences (knowing that our study is intended to address other types of data), the main objective is no longer to describe a Gaussian process but a set of Gaussian processes that can possess instances (Different temporal or spatial supports), with the aim to analyse videos with dynamic textures (lights, waves, clouds, fields of wheat …) taken from different angles for example.

The main objective of the thesis is to provide a precise mathematical framework for these instanciated Gaussian processes in order to be able to estimate the different parameters (instances, mathematical expectations and kernels’ parameters).

First, the PhD student will be intended to make a state-of-the-art about the different kernels and their properties, mainly their stationarity in time and space in order to propose new kernels. The next step is to develop robust parameter estimation methods and to work on the automatic selection of the kernels. Then, the formalism of non-stationary and instanciated Gaussian processes will be developed, together with their numerical simulations. The last step concerns the mixture of instanciated Gaussian processes and their application to real data like videos.

Profil du candidat :
Application process : Your application should include the following documents:
– Letter of intent
– Grades and ranking during Master 1 and Master 2
– Scientific CV
– List of publications (if it exists of course)
– Names of Referees (at least 2)

Formation et compétences requises :
We are looking for a motivated student holding a Master degree (on the 1st of September 2015) in the field of applied mathematics (probability, data analysis, estimation and optimization, …) or “computer science” (or “computer vision”) with strong skills in applied mathematics. A good background in software development (algorithmic, Matlab/Octave/Scilab or Python, …) is expected. Knowledges in image processing and machine learning would also be appreciated.

Adresse d’emploi :
Faculté des Sciences et Techniques
23, rue du Docteur Paul Michelon
42023 Saint-Étienne
France

Document attaché :

Categories: theses

Apr

Vers une approche Big Data orientée processus pour la détection, la prévention et la gestion des cyberattaques

Apr 17 – Apr 18 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : LSIS, Aix Marseille Université et CEA
Durée : 36 mois
Contact : omar.boucelma@univ-amu.fr
Date limite de publication : 2017-04-17

Contexte :
Gestion et contrôle des cyberattaques dans des systèmes cyber physiques.

Sujet :
L’objectif de la thèse est de proposer de nouveaux algorithmes et systèmes pour détecter, identifier et contrôler les cyberattaques. Ces algorithmes seront intégrés aux SIEM existants (Security Information and Event Management) ou alors dans des nouveaux systèmes en support aux activités des centres opérationnels de sécurité (SOC).
Le sujet s’attaque aux chantiers suivants : la collecte, la préparation des données qualifiées avec notamment la traçabilité, la modélisation de haut niveau des attaques, et le traitement des données avec des approches Big Data : stockage des données pertinentes, traitement de données en
flux pour la détection en temps réel, apprentissage sur les scénarii et les données d’attaques, etc.
Concernant les attaques, au-delà de la prise en compte d’une typologie classique, nous proposons une approche où les attaques seront représentées comme des processus métiers, avec un modèle et un langage standard de haut niveau. Ainsi représentées, les attaques pourront donc
être stockées dans une base de données, enrichir la connaissance métier des acteurs concernés, notamment par des méthodes de fouille (process mining) , et des simulations exécutables générées automatiquement sur des plateformes de test (hors SIEM en production). D’un point de vue stratégique, alors que certains travaux et initiatives (www.enisa.europa.eu) plaident pour un échange d’informations dans le domaine, cette approche offre la possibilité de ne divulguer que ce qui est nécessaire à des partenaires (processus public/privé).
Le traitement des données soulève plusieurs questions : (1) l’intégration de plusieurs sources de données hétérogènes, (2) l’assurance de l’intégrité des données, et (3) la fouille de données massives. Concernant le point (1) nous comptons nous appuyer sur des méthodes et techniques développées dans le domaine de la gestion de données. Le point (2) peut amener à des solutions innovantes via la gestion de la Provenance (traçabilité) avec des modèles de contrôles d’accès. Avec la multiplication des systèmes distribués, la provenance connaît un regain d’intérêt : par exemple, pour évaluer les risques de sécurité inhérents à ces systèmes, ou pour assurer l’intégrité des données, avec en ligne de mire, une évolution pour développer des systèmes « secure by design ». Enfin, le développement de méthodes de fouille de données mais aussi de processus et de techniques d’apprentissage adaptées, permettra de détecter les cyberattaques mais pourra aussi aider à la mise en place des solutions d’aide à la décision pour les SOC.

Profil du candidat :
Master 2 ou Ecole d’Ingénieurs en Informatique

Formation et compétences requises :
Data Management / Apprentissage / Sécurité

Connaissances en Process Management serait un plus.

Adresse d’emploi :
LSIS UMR CNRS 7296, Aix-Marseille Université
Domaine Universitaire de Saint-Jérôme
Avenue Escadrille Normandie-Niemen
13397 Marseille Cedex 20

Document attaché : amu-cea-thèse-cyber-bigdata.pdf

Categories: theses

Apr

Proposition de sujet de thèse au Lamsade, Université Paris-Dauphine : Process Mining

Apr 24 – Apr 25 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : LAMSADE, Université Paris-Dauphine
Durée : 3 ans
Contact : daniela.grigori@dauphine.fr
Date limite de publication : 2017-04-24

Contexte :
La fouille de processus (process mining) est une discipline de recherche relativement jeune qui applique des techniques d’intelligence artificielle et de fouille de données pour la modélisation et l’analyse des processus ([1]).
L’idée est d’extraire des connaissances à partir des événements des traces d’exécution des différentes applications transactionnelles pour découvrir, surveiller et améliorer les processus. Les approches existantes permettent de découvrir le modèle de processus ou ses variantes, de détecter des modifications du modèle initialement conçu, de trouver des corrélations entre les données du processus et les différentes variantes du modèles ([3]), d’analyser et de prédire des aspects inefficaces ([4,5]).
Références
[1] Wil M. P. van der Aalst et al., Process Mining Manifesto. Business Process Management Workshops (1) 2011: 169-194
[2] S.-M.-R. Beheshti, S. Sakr, D. Grigori, A. Gater, M. Chai Baruckh, B. Benatallah, H. R. Motahari-Nezhad, S-H. Ryu Process Analytics: Concepts and techniques for querying and analysing process data, Springer, ISBN 978-3-319-25037-3, 2016
[3] P. Delias, D. Grigori, M. L. Mouhoub, A. Tsoukias, Discovering Characteristics that Affect Process Control Flow, LNBIP (Lecture Notes in Business Information Processing), Volume 221, 2015, pp 51-63

[4] Daniela Grigori, Fabio Casati, Umeshwar Dayal, Ming-Chien Shan:
Improving Business Process Quality through Exception Understanding, Prediction, and Prevention. VLDB 2001: 159-168

[5] Daniela Grigori, Fabio Casati, Malú Castellanos, Umeshwar Dayal, Mehmet Sayal, Ming-Chien Shan: Business Process Intelligence. Computers in Industry 53(3): 321-343 (2004)

Sujet :
Même si beaucoup d’approches de fouille de processus ont été proposées dans la littérature ([1]), les applications actuelles (processus inter-organisationnels, phénomène big data) posent de nouveaux défis ([2]) :
-le volume des données (événements) stockées dans l’historique est très grand
-les processus génèrent des données stockées dans différents systèmes et formats (posant donc un problème d’intégration de données)
-des parties de processus peuvent s’exécuter via des échanges de messages électroniques ou via les réseaux sociaux (générant des données de type texte)
-certains processus sont très flexibles, non–structurés ou ad-hoc.

Objectifs : Les travaux de thèse devront aborder ces défis et proposer des techniques de fouille de processus permettant d’analyser des données historiques provenant des multiples sources, en multiples formats (texte, semi-structurés). Les algorithmes proposés devront gérer le passage à l’échelle. Pour faciliter l’utilisation du système proposé par des non-experts, des abstractions orientées processus devraient être proposées. Nous envisageons d’éteindre l’approche proposée dans [4,5] pour proposer des techniques d’amélioration continue (et en temps réel) des processus, basées sur la fouille de données et minimisant l’effort de l’analyste.

La description du sujet est disponible à l’adresse : https://www.lamsade.dauphine.fr/sites/default/IMG/pdf/grigoridelias-1.pdf

Profil du candidat :
Le dossier de candidature comportera les éléments suivants :
– CV
– Relevés de notes
– Lettre(s) de recommandation

Le dossier de candidature est à envoyer par mail à :
Daniela Grigori, mél : daniela.grigori@dauphine.fr (tél : 01 44 05 45 08)

Formation et compétences requises :
Master en informatique

Adresse d’emploi :
Université Paris-Dauphine

Document attaché :

Categories: theses

May

Réseaux de convolution de graphes sans a priori de structure

May 1 – May 2 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : Laboratoire GREYC UMR CNRS 6072
Durée : 3 ans
Contact : olivier.lezoray@unicaen.fr
Date limite de publication : 2017-05-01

Contexte :
Réseaux de convolution de graphes sans a priori de structure

Sujet :
De nombreux problèmes mettent en jeu des données dont la structure sous-jacente est non-
Euclidienne, mais qui peuvent être représentées sous la forme de graphes (souvent attribués). La complexité
de telles données, combinée avec le Big Data, requiert l’usage de techniques efficaces d’apprentissage pour
les traiter. Récemment, les techniques d’apprentissage profond se sont révélées êtres des outils très puissants
pour des problèmes mettant en jeu des données Euclidiennes disponibles en très grand nombre. En
particulier, les Réseaux de Neurones à Convolution (RNC) [1] permettent d’extraire des motifs statistiquement
significatifs de grands jeux de données et cela leur a permis d’améliorer considérablement les tâches
de reconnaissance en image, son et vidéo [2].
Récemment il y a eu un fort intérêt des communautés du traitement du signal et de l’apprentissage
automatique afin de généraliser les RNC à des graphes [3]. Ceci est un problème délicat puisque les
opérations de convolution, de descente en résolution et de mise en commun entre plusieurs couches, ne
sont bien définies que pour des grilles régulières. Ceci rend l’extension des RNC aux graphes relativement
difficile. On peut distinguer deux courants parmi ces approches d’extension des RNC aux graphes car elles
considèrent deux types de problèmes différents.
Le premier courant cherche à analyser des signaux sur des graphes de structure fixée. La majorité des
méthodes récentes proposées concernent ce premier type de problème [4, 5, 6]. Le défaut de ces approches
est qu’elles reposent sur une formulation spectrale de la convolution qui est dépendante de la transformée de
Fourier sur graphe [7] et qui n’est valide que pour le graphe en cours d’étude. Le modèle spectral appris sur
un graphe ne peut alors pas être aisément appliqué sur un autre graphe ayant une base de Fourier différente,
ce qui est relativement problématique.
Le second courant cherche à caractériser directement la structure des graphes et donc à définir des
RNC sur graphes, sans apriori de structure. Un tel problème est habituellement considéré à l’aide de
méthodes de manifold learning [8] ou bien par la caractérisation des motifs composant le graphe [9]. Par
exemple, étant donné une collection de graphes, nous désirons apprendre une fonction de classification sur
ces graphes (pour les catégoriser par exemple) et qui puisse être en mesure de considérer des graphes non
connus et de topologies éventuellement très différentes (les noeuds des graphes ne sont pas nécessairement
en correspondance). Très peu d’approches ont considéré ce problème à l’aide de RNC sur graphes et la
majorité d’entre elles utilise une étape de normalisation afin de se ramener à une grille régulière 1D ou 2D
[10, 11], ce qui ne préserve pas toute l’information du graphe initial. D’autres approches reposent sur des
patchs géométriques locaux lorsqu’une variété sous-jacente existe [12], ce qui n’est pas toujours vrai.
Dans cette thèse, nous considérons ce second type de problème et nous chercherons à nous affranchir
de tout apriori sur la structure du graphe qui puisse être présenté à un RNC. Pour cela, nous considérerons
des développements exploitant conjointement les notions de noyaux sur graphes [13], de calcul du
super-graphe d’une base de graphes [14], de coarsening et pooling par agrégation pondérée [15]. Les domaines
d’applications privilégiés seront la prédiction de propriétés de graphes moléculaires pour les graphes
symboliques et la catégorisation d’images pour les graphes à attributs réels.

References
————–
[1] Y. LeCun, L. Bottou, Y. Bengio, and P. Haffner, “Gradient-based learning applied to document recognition,”
Proceedings of the IEEE, vol. 86, no. 11, pp. 2278–2324, November 1998.
[2] Yann LeCun, Yoshua Bengio, and Geoffrey Hinton, “Deep learning,” Nature, vol. 521, no. 7553, pp. 436–444,
05 2015.
[3] Michael M. Bronstein, Joan Bruna, Yann LeCun, Arthur Szlam, and Pierre Vandergheynst, “Geometric deep
learning: going beyond euclidean data,” CoRR, vol. abs/1611.08097, 2016.
[4] Mikael Henaff, Joan Bruna, and Yann LeCun, “Deep convolutional networks on graph-structured data,” CoRR,
vol. abs/1506.05163, 2015.
[5] Michaël Defferrard, Xavier Bresson, and Pierre Vandergheynst, “Convolutional neural networks on graphs with
fast localized spectral filtering,” CoRR, vol. abs/1606.09375, 2016.
[6] Michael Edwards and Xianghua Xie, “Graph based convolutional neural network,” CoRR, vol. abs/1609.08965,
2016.
[7] D. I. Shuman, S. K. Narang, P. Frossard, A. Ortega, and P. Vandergheynst, “The emerging field of signal
processing on graphs: Extending high-dimensional data analysis to networks and other irregular domains,”
IEEE Signal Process. Mag., vol. 30, no. 3, pp. 83–98, 2013.
[8] Mikhail Belkin and Partha Niyogi, “Laplacian eigenmaps for dimensionality reduction and data representation,”
Neural Computation, vol. 15, no. 6, pp. 1373–1396, 2003.
[9] Nino Shervashidze, S. V. N. Vishwanathan, Tobias Petri, Kurt Mehlhorn, and Karsten M. Borgwardt, “Efficient
graphlet kernels for large graph comparison,” in AISTATS, 2009, pp. 488–495.
[10] Mathias Niepert, Mohamed Ahmed, and Konstantin Kutzkov, “Learning convolutional neural networks for
graphs,” in Proceedings of the 33nd International Conference on Machine Learning, ICML 2016, New York
City, NY, USA, June 19-24, 2016, 2016, pp. 2014–2023.
[11] Shaosheng Cao, Wei Lu, and Qiongkai Xu, “Deep neural networks for learning graph representations,” in
Proceedings of the Thirtieth AAAI Conference on Artificial Intelligence, February 12-17, 2016, Phoenix, Arizona,
USA., 2016, pp. 1145–1152.
[12] Jonathan Masci, Davide Boscaini, Michael M. Bronstein, and Pierre Vandergheynst, “Geodesic convolutional
neural networks on riemannian manifolds,” in 2015 IEEE International Conference on Computer Vision Workshop,
ICCV Workshops 2015, Santiago, Chile, December 7-13, 2015, 2015, pp. 832–840.
[13] John Shawe-Taylor and Nello Cristianini, Kernel Methods for Pattern Analysis, Cambridge University Press,
2004.
[14] Horst Bunke, P. Foggia, C. Guidobaldi, and M. Vento, Graph Clustering Using the Weighted Minimum Common
Supergraph, pp. 235–246, Springer Berlin Heidelberg, Berlin, Heidelberg, 2003.
[15] Cédric Chevalier and Ilya Safro, “Learning and intelligent optimization,” chapter Comparison of Coarsening
Schemes for Multilevel Graph Partitioning, pp. 191–205. Springer-Verlag, Berlin, Heidelberg, 2009.

Profil du candidat :
Le candidat doit avoir un master ou un diplôme d’ingénieur en Informatique ou en Mathématiques
Appliquées. Des connaissances en théorie des graphes, apprentissage automatique, apprentissage
profond seront très bienvenues. Le candidat effectuera ses développements en C++ et de solides bases de
programmation sont requises.

Formation et compétences requises :
Les candidats intéressés doivent envoyer (par e-mail dans un unique fichier pdf) leurs
Curriculum Vitae, relevés de Notes des deux dernières années d’étude, une lettre de motivation relative au
sujet de thèse. Le financement de la thèse se fera dans le cadre d’une bourse du ministère de l’enseignement
supérieur et de la recherche (une audition en Juin 2017 sera nécessaire).

Adresse d’emploi :
La thèse se déroulera à Caen au sein du laboratoire GREYC UMR CNRS 6072.

Document attaché : proposal_fr.pdf

Categories: theses

May

Sun

Aide au diagnostic/pronostic des lésions pigmentaires en dermatologie par analyse multi-échelle d’images multimodales

May 21 – May 22 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : Laboratoire Electronique Informatique et Image (LE2I)
Durée : 3 ans
Contact : alamin.mansouri@ubfc.fr
Date limite de publication : 2017-05-21

Contexte :
Cette thèse s’inscrit dans une démarche de développement de méthodes d’aide au diagnostic en imagerie cutanée dans le cadre de l’analyse des lésions pigmentaires. Plus spécifiquement, plusieurs méthodes d’imagerie seront abordées dans un processus d’extraction et de fusion de paramètres de natures différentes.
L’un de nos partenaires, le service de dermatologie du CHU de Saint-Etienne, dispose d’une base d’images de plus de 200 patients présentant des lésions cutanées, bénignes pour certaines, malignes pour d’autres mais avec une discrimination non triviale entre ces deux classes. Chaque lésion a été acquise à l’aide de trois modalités différentes : la dermoscopie, outil classiquement utilisé et fournissant une image couleur avec grossissement des lésions observées et donc la possibilité d’une analyse bas cout, facile d’accès et relativement fine, mais aussi la microscopie confocale et enfin la tomographie en cohérence optique (OCT).
Il est à noter que, pour chaque patient, la vérité terrain par biopsie est connue ainsi que le résultat d’une classification réalisée de manière visuelle par un groupe d’experts internationaux.
Trois partenaires au laboratoire seront associés à ce travail de thèse : les services de dermatologie des CHU de St-Etienne et de Dijon ainsi qu’une société qui mène une activité dans la conception et la commercialisation de dispositifs médicaux pour les secteurs de la dermatologie et de la dermocosmétique.

Sujet :
Sur le plan de l’analyse de ces images, les approches de type « machine learning » sont les plus fréquemment utilisées. Elles consistent à extraire un ensemble de caractéristiques des images utilisés dans un schéma de type apprentissage / classification. Alors que de nombreuses études ont été réalisées pour sélectionner les meilleures caractéristiques en dermatoscopie (forme, texture, couleur), les autres modalités ont été beaucoup moins étudiées. Quant à la combinaison de paramètres issus de différentes modalités, elle reste largement sous-exploitée. Le sujet de thèse proposé s’inscrit dans cet axe de recherche.
L’atout majeur d’une approche de classification multimodale repose sur le fait que chaque modalité apporte un type de connaissance et que leur combinaison donne la complémentarité nécessaire à une grande précision, aussi bien au sens de la sensibilité que de la spécificité. Une telle approche n’est pas triviale pour deux raisons majeures sur lesquelles nous focaliserons notre étude. La première est liée à la nécessité de l’utilisation de modèles déformables dans un contexte de recalage multi-modal et multi-échelle d’images d’un même patient. La seconde repose sur une modélisation à base de décomposition tensorielle permettant de prendre en compte explicitement la nature multidimensionnelle des données et offrant ainsi la possibilité de traiter conjointement un ensemble de données recalées hétérogènes.

Profil du candidat :
Solide formation liée aux méthodes de traitement et d’analyse d’images conventionnelles en couleur avec un focus spécifique sur la classification.
Aptitude au développement de méthodes d’analyse d’images non conventionnelles avec un focus spécifique sur la fusion de paramètres multimodaux et multi-échelle.
Vif intérêt pour l’innovation technologique en imagerie biomédicale dans un contexte de capteurs intelligents.

Formation et compétences requises :
La thèse se déroulera au laboratoire Le2i, Univ. Bourgogne Franche-Comté, site de Dijon.
La thèse alliera recherche et valorisation, notamment dans le cadre du dispositif de formation au management de l’innovation.

Adresse d’emploi :

Pour candidater, envoyer par courriel :
lettre de motivation + CV + relevés de notes + lettres de recommandation + tout document que vous jugerez utile
à
Franck MARZANI – franck.marzani@u-bourgogne.fr
et à
Alamin MANSOURI – alamin.mansouri@u-bourgogne.fr

Document attaché :

Categories: theses

May

Tue

Proposition de thèse CIFRE LAMSADE-Evoliz

May 30 – May 31 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : LAMSADE
Durée : 3 ans
Contact : daniela.grigori@dauphine.fr
Date limite de publication : 2017-05-30

Contexte :
Laboratoire d’accueil : LAMSADE, Université Paris-Dauphine
Entreprise : Evoliz (http://www.evoliz.com/)
Mots clé : machine learning, record linkage, entity recognition, data integration

La thèse sera effectuée au sein de l’entreprise Evoliz à Toulon et 8 jours par mois de présence au LAMSADE sont prévus. Les frais de déplacement sont à la charge de l’entreprise.
Pour plus de détails sur le sujet et sur l’organisation de la thèse, merci de nous contacter.

Le dossier de candidature est à envoyer par mail à :
Dario Colazzo, mél : dario.colazzo@dauphine.fr
Daniela Grigori, mél : daniela.grigori@dauphine.fr

Sujet :
Titre : Automatisation du rapprochement bancaire

Profil du candidat :
Le dossier de candidature comportera les éléments suivants :
– CV
– Relevés de notes
– Lettre(s) de recommandation

Formation et compétences requises :
Bases de données, Machine Learning, programmation, data science

Adresse d’emploi :
Laboratoire LAMSADE, Université Paris-Dauphine

Document attaché :

Categories: theses

Thèse sur l’apprentissage statistique de réseaux dynamiques à l’échelle

Jun 5 – Jun 6 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : LMNO UMR CNRS 6139
Durée : 36 mois
Contact : faicel.chamroukhi@unicaen.fr
Date limite de publication : 2017-06-05

Contexte :
Cette thèse sera effectué au sein du laboratoire de mathématiques de l’université de Caen-Normandie.

Sujet :
Les réseaux permettent de représenter des structures de données d’interactions entre les éléments d’un système complexe. Ils sont utilisés dans plusieurs domaines, en allant de la biologie (e.g., réseaux de
neurones, réseaux de régulation génétique, réseaux métaboliques), jusqu’aux sciences humaines et sociales, notamment les réseaux sociaux (e.g., Twitter, LinkedIn, Facebook).
L’analyse statistique de données de type réseau est devenue un élément essentiel pour inférer l’organisation du réseau et comprendre les interactions entre ses éléments et ce à partir de données brutes. Les modèles statistiques les plus attrayants considèrent le réseau comme un graphe aléatoire, parmi lesquels on peut citer les modèles stochastiques à blocs latents (SBM) (Snijders and Nowicki, 1997; Nowicki and Snijders, 2001; Daudin et al., 2008; Yang et al., 2011; Latouche et al., 2011; Celisse et al., 2012; Ambroise and Matias, 2012; Matias and Robin, 2014; Zreik et al., 2016; Bouveyron et al., 2016; Matias and Miele, 2016)).
D’autres modèles à variables latentes se basent sur les mélanges d’experts (Gormley and Murphy, 2010,2011).
Ces modèles statistiques de graphes aléatoires sont utilisés dans différents domaines d’applications, comme pour les réseaux biologiques (Picard et al., 2009), en sciences humaines et sociales (Gormley and Murphy, 2010, 2011), comme l’analyse de réseaux sociaux (Yang et al., 2011), l’analyse d’une scène politique (Latouche et al., 2011), l’analyse de réseaux de données textuelles (Xu and Hero, 2013) notamment pour la classification de topics (Bouveyron et al., 2016), l’analyse de réseaux de données maritimes (Zreik et al.,
2016), etc. La majorité des travaux sur le sujet concernent une modélisation statique du réseau, avec un objectif principalement de clustering en se basant sur un modèle stochastique à blocs latents statique. Or il est clair que
la prise en compte de la dynamique des interactions au sein d’un réseau est une question majeure pour pouvoir restaurer et comprendre des propriétés évolutives des interactions entre les éléments du réseau. Dans ce cadre, on peut citer des travaux récents proposant une modélisation dynamique (Yang et al., 2011; Xu and Hero, 2013; Zreik et al., 2016; Matias and Miele, 2016).
Le travail attendu de cette thèse est d’étudier les modèles statistiques pour les réseaux et de proposer de nouveaux modèles statistiques dynamiques (à blocs latents, de mélanges d’experts, de réseaux profonds (hiérarchiques)) pour la modélisation de réseaux évolutifs sous forme de graphes aléatoires dynamiques.
Avec la volumétrie des données actuelles, l’objectif est également de proposer des algorithmes d’inférence efficaces dans un contexte à large-échelle (Big Data). L’accent sera mis en particulier sur l’apport d’une
rigueur et d’un formalisme statistique aux modèles et aux algorithmes développés. L’aspect appliqué concernerait notamment l’analyse de réseaux sociaux impliquant notamment des données textuelles évolutives (tweets, etc) pour le suivi de la dynamique de communautés et de réseaux biologiques impliquant notamment des données fonctionnelles temporelles.
Parmi les travaux de l’équipe en lien avec le sujet et portant notamment sur des modèles dynamiques à variables latentes et d’analyse de données temporelles, on peut citer Chamroukhi (2016b,a, 2015); Chamroukhi
et al. (2013a,b); Samé et al. (2011); Chamroukhi et al. (2009).

Mode de candidature:
Dossier à envoyer sous la forme d’UN SEUL DOCUMENT .pdf contenant les pièces suivantes : CV + lettre de motivation + relevés de notes des trois dernières années + tout autre éventuel document (lettres de recommandation, publications scientifiques, …) à chamroukhi@unicaen.fr.

References
Ambroise, C. and Matias, C. (2012). New consistent and asymptotically normal parameter estimates for
random-graph mixture models. Journal of the Royal Statistical Society: Series B (Statistical Methodology),
74(1):3–35.
Bouveyron, C., Latouche, P., and Zreik, R. (2016). The stochastic topic block model for the clustering of
vertices in networks with textual edges. Statistics and Computing, pages 1–21.
Celisse, A., Daudin, J.-J., and Pierre, L. (2012). Consistency of maximum-likelihood and variational estimators
in the stochastic block model. Electronic Journal of Statistics, 6:1847–1899.
Chamroukhi, F. (2015). Unsupervised learning of regression mixture models with unknown number of
components. Journal of Statistical Computation and Simulation. Published online: 05 Nov 2015.
Chamroukhi, F. (2016a). Piecewise regression mixture for simultaneous functional data clustering and
optimal segmentation. Journal of Classification, 33(3):374–411.
Chamroukhi, F. (2016b). Robust mixture of experts modeling using the t distribution. Neural Networks,
79:20 – 36.
Chamroukhi, F., Glotin, H., and Samé, A. (2013a). Model-based functional mixture discriminant analysis
with hidden process regression for curve classification. Neurocomputing, 112:153–163.
Chamroukhi, F., Samé, A., Govaert, G., and Aknin, P. (2009). Time series modeling by a regression
approach based on a latent process. Neural Networks, 22(5-6):593–602.
Chamroukhi, F., Trabelsi, D., Mohammed, S., Oukhellou, L., and Amirat, Y. (2013b). Joint segmentation of
multivariate time series with hidden process regression for human activity recognition. Neurocomputing,
120:633–644.
Daudin, J.-J., Picard, F., and Robin, S. (2008). A mixture model for random graphs. Statistics and Computing,
18(2):173–183.
Gormley, I. C. and Murphy, T. B. (2010). A mixture of experts latent position cluster model for social
network data. Statistical methodology, 7(3):385–405.
Gormley, I. C. and Murphy, T. B. (2011). Mixture of experts modelling with social science applications.
Journal of Computational and Graphical Statistics, 19(2):332–353.
Latouche, P., Birmelé, E., and Ambroise, C. (2011). Overlapping stochastic block models with application
to the french political blogosphere. The Annals of Applied Statistics, 5(1):309–336.
Matias, C. and Miele, V. (2016). Statistical clustering of temporal networks through a dynamic stochastic
block model. Journal of the Royal Statistical Society: Series B (Statistical Methodology), pages n/a–n/a.
Matias, C. and Robin, S. (2014). Modeling heterogeneity in random graphs through latent space models: a
selective review. ESAIM: Proc., 47:55–74.
Nowicki, K. and Snijders, T. A. B. (2001). Estimation and prediction for stochastic blockstructures. Journal
of the American Statistical Association, 96(455):1077–1087.
Picard, F., Miele, V., Daudin, J.-J., Cottret, L., and Robin, S. (2009). Deciphering the connectivity structure
of biological networks using mixnet. BMC Bioinformatics, 10(6):S17.
Samé, A., Chamroukhi, F., Govaert, G., and Aknin, P. (2011). Model-based clustering and segmentation of
time series with changes in regime. Advances in Data Analysis and Classification, 5(4):1–21.
Snijders, T. A. and Nowicki, K. (1997). Estimation and prediction for stochastic blockmodels for graphs
with latent block structure. Journal of Classification, 14(1):75–100.
Xu, K. S. and Hero, A. O. (2013). Dynamic Stochastic Blockmodels: Statistical Models for Time-Evolving
Networks, pages 201–210. Springer Berlin Heidelberg, Berlin, Heidelberg.
Yang, T., Chi, Y., Zhu, S., Gong, Y., and Jin, R. (2011). Detecting communities and their evolutions in
dynamic social networks—a bayesian approach. Machine Learning, 82(2):157–189.
Zreik, R., Latouche, P., and Bouveyron, C. (2016). The dynamic random subgraph model for the clustering
of evolving networks. Computational Statistics, pages 1–33.

Profil du candidat :
Profil recherché:
Diplôme requis: Etre titulaire d’un Master recherche en mathématiques appliquées (statistique) ou disciplines proches (e.g., Apprentissage automatique, Traitement statistique du signal), depuis moins de deux ans à la date de Juin 2017.

Formation et compétences requises :
Compétences requises: i) des compétences théoriques en modélisation et inférence statistique; ii) maîtrise de l’un des langages de programmation suivants: Matlab, R, Python; iii) un très bon niveau en anglais.
Compétences souhaitées: Apprentissage statistique non-supervisé, méthodes variationnelles, inférence Bayésienne, utilisation de plateformes BigData (MapReduce, Hadoop, Spark, cloud computing).

Adresse d’emploi :
Université de Caen Campus 2 Côte de Nacre 14000 Caen, France

Document attaché : these-apprentissage-graphes.pdf

Categories: theses

Analyse physique des matrices de Google associées aux réseaux complexes réels

Jun 10 – Jun 11 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : Institut UTINAM / UMR CNRS 6213
Durée : 3 ans
Contact : jose.lages@utinam.cnrs.fr
Date limite de publication : 2017-06-10

Contexte :
Les systèmes complexes forment naturellement d’immenses réseaux comportant un nombre très important de noeuds interconnectés. Par exemple, dans les systèmes vivants, les protéines agissent entre elles via des réactions chimiques; dans le cerveau, l’influx nerveux est transmis aux neurones par les axones; dans les réseaux sociaux, les participants sont liés par relations; dans le commerce international, les pays exportent/importent entre eux des produits. . . De nos jours, l’archétype des réseaux complexes dirigés est le World Wide Web (WWW) contenant plus de 10 12 pages reliées entre elles par des hyperliens. Ces réseaux, à la topologie extrêmement compliquée, possèdent des propriétés d’invariance d’échelle [1] et des propriétés dites de ultrasmall world [2] . L’étude des propriétés physiques de ces réseaux complexes dirigés nécessite l’utilisation d’outils statistiques spécifiques: en empruntant le paradigme du WWW, un surfeur aléatoire peut sauter d’un noeud A à un noeud B avec une certaine probabilité (chaîne de Markov). Les réseaux complexes dirigés peuvent alors être représentés par un opérateur stochastique — la matrice de Google — appartenant à la classe des opérateurs de Perron-Frobenius [3, 4] . L’analyse des réseaux complexes à l’aide de leurs matrices de Google permet de caractériser et de classer les quantités massives d’information enfouies dans ces réseaux, et cela de manière extrêmement efficace.

Sujet :
L’objet de ce travail de thèse sera de produire des avancées fondamentales dans les directions de recherche suivantes:
Axe 1: compréhension des propriétés spectrales de la matrice de Google, notamment en étudiant la transition d’Anderson et la loi fractale de Weyl. Les propriétés universelles de la matrice de Google ainsi que la décomposition en valeur singulières de son spectre seront établies,
Axe 2: analyse des interactions entre cultures via l’analyse du réseau multilingue Wikipédia. La structure globale et les propriétés du réseau multilingue Wikipédia seront déterminées et l’intrication entre les différentes cultures sera étudiée. L’analyse des interactions entre pays, entre universités et entre personnages politiques sera obtenue avec la matrice réduite de Google,
Axe 3: analyse de la sensibilité du commerce international et du risque de contagion des crises, en déterminant le spectre, les états propres et les communautés cachées de la matrice de Google du réseau multiproduit du commerce international (données OMC, ONU, OCDE). Une description des
propriétés statistiques du réseau des transactions Bitcoin sera donnée. Les conditions de la stabilité des flux monétaires seront analysées sur l’exemple des transactions Bitcoin.
Si le doctorant ou la doctorante possède des connaissances/notions de biologie des systèmes, il ou elle participera également à l’axe de recherche:
Axe 4: analyse des relations causales cachées entre protéines oncogène. Très récemment, nous avons défini [5] les bases de l’application de la matrice (réduite) de Google dans le domaine des réseaux de données omiques et par conséquent ouvert la voie à de nombreux futurs résultats en biologie computationnelle.
En outre, ce travail de thèse interdisciplinaire bénéficiera de l’étroite collaboration déjà existante avec les laboratoires associés au projet ApliGoogle ( http://perso.utinam.cnrs.fr/~lages/projects.html ), lauréat du Défi MASTODONS du CNRS ( http://www.cnrs.fr/mi/spip.php?article819 )
et co-porté par l’Institut UTINAM. Ces laboratoires sont le Laboratoire de Physique Théorique de Toulouse (UMR 5152 du CNRS), le groupe de Biologie Computationnelle des Systèmes du Cancer de l’Institut Curie, et l’Institut de Recherche en Informatique de Toulouse (UMR 5505 du CNRS).

Références générales
[1] A.-L. Barabási and R. Albert, “Emergence of scaling in random networks”, Science, 286:509-512 (1999)
[2] R. Cohen, S. Havlin, “Scale-free networks are ultrasmall”, Phys. Rev. Lett. 90 (5): 058701 (2003)
[3] A.M. Langville and C.D. Meyer, “Google’s PageRank and beyond: the science of search engine rankings”, Princeton University Press, Princeton (2006)
[4] S. Brin and L. Page, “The anatomy of a large-scale hypertextual Web search engine”, Computer Networks and ISDN Systems v.30, p.107 (1998)
[5] J.Lages, D.L.Shepelyansky, A.Zinovyev, “Inferring hidden causal relations between pathway members using reduced Google matrix of directed biological networks” (2016) soumis à eLife, preprint disponible à http://perso.utinam.cnrs.fr/~lages/datasets/googlomics/
[6] L.Ermann, K.M.Frahm and D.L.Shepelyansky, “Google matrix analysis of directed networks”, Rev.Mod. Phys. v.87, p.1261 (2015)
[7] United Nations COMTRADE data base http://comtrade.un.org
[8] OECD data base https://data.oecd.org
[9] WTO data base http://stat.wto.org
[10] Bitcoin web site https://blockchain.info
[11] J.Bohannon, “The Bitcoin BUSTS”, Science v.351, p.1144 (2016)
[12] K.M.Frahm and D.L.Shepelyansky, “Reduced Google matrix”, arXiv:1602.02394 (2016)
[13] J. Lages, A. Patt, D. L. Shepelyansky, “Wikipedia Ranking of World Universities”, The European Physical Journal B (2016) 89:69, les données ainsi que le classement sont disponibles à
http//perso.utinam.cnrs.fr/~lages/datasets/WRWU/

Profil du candidat :
Le candidat devra être issu préférablement d’un Master 2 de Physique ou de Mathématiques avec une dominante “sciences des données”, et maîtriser les langages informatiques du type python, FORTRAN, C++, … Des connaissances en théorie des réseaux complexes ainsi qu’en biologie des systèmes seraient appréciées.

Formation et compétences requises :
Le candidat devra être issu préférablement d’un Master 2 de Physique ou de Mathématiques avec une dominante “sciences des données”, et maîtriser les langages informatiques du type python, FORTRAN, C++, … Des connaissances en théorie des réseaux complexes ainsi qu’en biologie des systèmes seraient appréciées.

Adresse d’emploi :
Institut UTINAM
Observatoire de Besançon – UMR CNRS 6213
41 bis avenue de l’Observatoire
BP 1615
25010 Besançon Cedex

Document attaché : aapregion_these.pdf

Categories: theses

Thu

Outils Statistiques pour l’Évaluation des Performances en Classification et Apprentissage en présence de données entachées d’erreurs

Jun 15 – Jun 16 all-day

Annonce en lien avec l’Action/le Réseau : Doctorants

Laboratoire/Entreprise : Loria (UMR 7503) – IECL (7502)
Durée : 3 ans
Contact : bart.lamiroy@loria.fr
Date limite de publication : 2017-06-15

Contexte :
Ce sujet de thèse est la prolongation du PEPS CNRS 2016 « Perfaclastique » entre le Loria et l’IECL et le projet Mastodons « Apprentistique » 2017 du CNRS entre le Loria, l’IECL et l’INRA de Toulouse.
Le travail effectué dans cette thèse, s’inscrit dans le projet CNRS Mastodons 2017 « Apprentistique » et est également financé par la Fédération Charles Hermite (FR 3198).

Sujet :
Le but de cette thèse est de contribuer à l’état de l’art en évaluation de performances dans des problèmes de classification (notamment en perception artificielle) en se positionnant en rupture par rapport aux consensus établis. Les méthodes d’apprentissage et de classification actuelles dépendent très fortement de grandes masses de données annotées pour fonctionner. Le bouleversement de l’état de l’art, notamment provoqué par les méthodes d’apprentissage profond, nécessite des approches d’évaluation des performances adaptées. Les hypothèses traditionnelles sur les données de référence pour mesurer les performances se trouvent fortement affaiblies du fait de la quantité des données nécessaire pour les faire fonctionner. Il devient alors impossible de présupposer que les données d’apprentissage et/ou d’évaluation soient exemptes d’erreurs ou de bruit, induisant ainsi des imprécisions sur les évaluations et les comparaisons entre expérimentations.
Dans ce projet, nous visons à établir à la fois les formalismes mathématiques et de protocoles expérimentaux qui permettront d’exprimer des niveaux de confiance et des métriques statistiques, pour prendre en compte l’incertitude sur les données dans l’évaluation de méthodes de classification et d’apprentissage.
Nous proposons de revisiter l’ensemble du processus en étudiant et en développant des outils statistiques permettant d’exprimer une « confiance » dans des mesures de classement issues de campagnes d’évaluation ou de benchmarking.
La question à laquelle on cherchera à répondre est la suivante :
Étant donnée la réponse de n algorithmes sur un ensemble de données de référence, quelle est la confiance que l’on peut accorder au classement qui en résulte, sachant que le taux d’erreur des données de référence est inférieur à e. Ou à partir de quel taux d’erreur sur les données de référence peut-on considérer, avec un taux de certitude de t, que le classement obtenu sera mis en défaut. De façon duale, on peut également, non pas exprimer une confiance dans les classifieurs, mais dans les données expérimentales. Plusieurs formulations probabilistes de cette question sont possibles. Par exemple, en considérant les données comme des réalisations d’un vecteur aléatoire (dont la loi pourra appartenir à un modèle paramétrique donné), on étudiera la loi du vecteur constitué des réponses des n algorithmes en tant que fonction de ce vecteur aléatoire, ce qui permettra de calculer la probabilité d’avoir un classement donné de ces réponses, et de considérer que le classement n’est pas fiable si cette probabilité est jugée trop faible. En supposant que la distribution des erreurs appartient à un modèle paramétrique, des outils de statistique bayésienne pourront être utilisés pour étudier la distribution a posteriori des paramètres au vu des réponses des algorithmes.

Profil du candidat :
Ce travail est co-encadré entre deux équipes de recherche, l’une spécialisée dans la classification et l’apprentissage, l’autre dans les statistiques. Les candidat.e.s pourront, sans distinction, mettre en valeur un profil plus informatique ou mathématique selon leurs compétences. Il est attendu que les candidat.e.s investissent ensuite le champ scientifique leur correspondant le mieux, tout en gardant une ouverture et une interaction suffisante avec l’autre.

Formation et compétences requises :
M2/École d’Ingénieurs en Statistiques ou M2/École d’Ingéniers en Informatique avec une préférence parmi l’une des dominantes suivantes : Big Data, Apprentissage/Classification.
Toute candidature sera étudiée.

Adresse d’emploi :
Laboratoires Loria et IECL, Campus Scientifique de l’Université de Lorraine, Nancy.

Les candidat.e.s potentiel.le.s doivent prendre contact avec les encadrants en envoyant un CV et lettre de motivation, et obligatoirement faire acte de candidature via http://www.adum.fr/as/ed/page.pl?site=IAEM&page=candidater.
Angelo Efoevi Koudou – MCF HDR – IECL (équipe Probabilités et Statistique)
Bart Lamiroy – MCF HDR – Loria (équipe Synalp)

Document attaché : Sujet-de-thèse-FCH-Koudou-Lamiroy-V_ADUM.pdf

Categories: theses

Extraction et agrégation d’informations issues de données multi-sources pour la veille internationale des maladies animales infectieuses

Jun 17 – Jun 18 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : TETIS et ASTRE (Cirad)
Durée : 3 ans
Contact : mathieu.roche@cirad.fr
Date limite de publication : 2017-06-17

Contexte :
La veille en santé animale, et notamment la détection précoce d’émergences au niveau mondial d’agents pathogènes, est l’un des moyens permettant de prévenir ou d’anticiper l’introduction en France de dangers sanitaires. Pour cela, dans le cadre de la Veille Sanitaire Internationale (VSI) de la Plateforme nationale d’épidémiosurveillance en santé animale (PNESA : http://www.plateforme-esa.fr), les chercheurs des unités TETIS et ASTRE développent depuis 2014 une plateforme dédiée à la veille automatique allant du recueil des données textuelles (dépêches) jusqu’à la restitution synthétique des informations extraites.
Certains systèmes collectent les données à partir de sources officielles et non officielles (HealthMap, EWRS et GOARN) tandis que d’autres les collectent principalement via un réseau d’experts et d’abonnés (ProMED). Les utilisateurs des systèmes EWRS et ProMED mènent également une recherche manuelle sur le Web et d’autres systèmes pour trouver des informations sanitaires complémentaires (Barboza, 2014 ; Yu et al., 2007). Le système IBIS utilise l’approche collaborative (« crowd-sourcing »). IBIS permet également d’analyser le contenu de chaque article et de contribuer à l’évaluation de termes automatiquement extraits et annotés : les maladies, les espèces touchées, les signes cliniques ainsi que le lieu d’évènement (Lyon, Grossel et al., 2013).
Afin de trouver des informations pertinentes sur le Web, la plupart des systèmes de veille utilisent des combinaisons de termes et d’expressions en plusieurs langues. Les systèmes Argus et IBIS utilisent des termes de noms de maladies, d’agents pathogènes et de leurs variants (Nelson, Brownstein et al., 2010 ; Nelson, Yang et al., 2012). Les systèmes MediSys et HealthMap utilisent en plus, des termes qui décrivent des signes cliniques et des mots clés qui caractérisent des foyers. Les termes sont proposés par des experts (systèmes GPHIN, MediSys) (Keller, Freifeld et al., 2009 ; Mantero et al., 2011), proviennent d’un dictionnaire des pathogènes (système HealthMap) (Brownstein et al., 2008) ou d’une ontologie médicale, comme dans le projet BioCaster (Collier, Doan et al., 2008).

Travaux réalisés par les équipes des unités de Recherche ASTRE & TETIS :

Le recueil des dépêches issues des médias électroniques s’appuie sur des requêtes à partir de mots-clés de maladies, d’hôtes et de signes cliniques pour collecter des articles de Google News. Ces mots-clés ont été définis par des experts (méthode Delphi) et/ou par des approches de fouille de textes. De nouvelles pondérations selon les sources de données ont été proposées (Arsevska et al., 2016). Les dépêches collectées sur la base des mots-clés sélectionnés par les experts sont prétraitées et normalisées avant d’être stockées dans une base de données. L’extraction d’information dans les dépêches collectées identifie les éléments clés (noms de maladies, lieux, dates, nombres et espèces d’animaux touchées). Elle repose sur des dictionnaires dédiés et des règles préalablement construites par un processus de fouille de données (extraction de motifs séquentiels et méthodes d’apprentissage automatique). Les résultats sur un corpus de 352 dépêches en anglais montrent une identification pertinente (accuracy) des informations spatiales d’environ 80% et de plus de 85% pour les autres types d’informations. Un des verrous scientifiques est l’ambigüité des entités spatiales candidates. En effet, une localisation mentionnée dans un texte peut faire référence à plusieurs coordonnées spatiales (par exemple, le toponyme Saint-Louis peut être associé au Sénégal, la Réunion et aux Etats-Unis). Lever automatiquement de telles ambigüités est donc crucial pour consolider le système actuel.

Sujet :
Outre les améliorations méthodologiques à mettre en œuvre (désambigüisation des entités spatiales, traitement de l’aspect multilingue dans la chaîne complète, classification automatique), ce projet de thèse se concentrera sur la problématique de l’identification, la combinaison et la qualification des informations et indicateurs (en particulier les signaux faibles) issus des données multi-sources (dépêches officielles, textes libres, etc.) pour l’identification de l’émergence de maladies. Ce travail consistera à construire un modèle général prenant en compte les éléments de différentes sources afin d’améliorer les prédictions.
La première étape consiste à identifier les informations issues de données non structurées multilingues (dépêches, articles scientifiques, etc.) et de qualifier ces informations extraites (« confiance » à établir sur la base de la qualité des données, des sources et des approches automatiques utilisées). Une attention particulière sera portée à l’identification de signaux faibles syndromiques (par exemple, baisse de la production laitière). La seconde étape consistera à combiner ces informations intégrées à celles issues des organismes officiels (par exemple OIE) afin de proposer une méthode générique, robuste et complète. Les approches à proposer, implanter et expérimenter durant cette thèse pourront consister à concevoir des méthodes pour (i) agréger des modèles statistiques (modèles épidémiologiques construits à partir de données issues de différentes sources et/ou obtenues par différentes approches) ; (ii) intégrer des pondérations spécifiques, en particulier pour les informations spatio-temporelles, selon leur provenance pour construire un modèle générique.
Les contributions scientifiques seront intégrées à la plateforme PADI-Web (Platform for Automated Extraction of Animal Disease Information from the Web) développée dans le cadre de la collaboration pluridisciplinaire TETIS-ASTRE avec des applications étudiées sur 5 maladies (peste porcine africaine, l’influenza aviaire, la fièvre catarrhale ovine, la fièvre aphteuse et la maladie de Schmallenberg).

Profil du candidat :
Le candidat retenu devra être de formation initiale en informatique, en biostatistique ou en épidémiologie mais avec des compétences solides dans les sciences informatiques.

Formation et compétences requises :
Le candidat retenu devra être de formation initiale en informatique (fouille de données et/ou fouille de textes), en biostatistique ou en épidémiologie mais avec des compétences solides dans les sciences informatiques.

Adresse d’emploi :
Cirad,
Campus international de Baillarguet
Montpellier, France

Document attaché : these_ASTRE_TETIS.pdf

Categories: theses

Aide au diagnostic/pronostic des lésions pigmentaires en dermatologie par analyse multi-échelle d’images multimodales.

Jun 19 – Jun 20 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : Laboratoire Electronique, Informatique et Image (LE2I)
Durée : 3 ans
Contact : alamin.mansouri@ubfc.fr
Date limite de publication : 2017-06-19

Adresse d’emploi :

Document attaché :

Categories: theses

Proposition de sujet de thèse CIFRE SAFRAN-LIPN

Jun 30 – Jul 1 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : LIPN UMR 7030
Durée : 3 ans
Contact : mustapha.lebbah@univ-paris13.fr
Date limite de publication : 2017-06-30

Contexte :
Le futur moteur sera intelligent : il devra adapter sa régulation à son état d’usure de même que chaque compagnie adaptera son exploitation en fonction de ses capacités et sa logistique de maintenance. Cet état dépend de l’usage passé du moteur et de l’usure dont elle est la conséquence. Ce travail préliminaire consiste à étudier les données d’exploitation dans le but de repérer des configurations spécifiques conduisant à des états d’usure pour lesquels il pourrait être utile de spécifier des types de missions ou plus tard, des régulations adaptées.

Le sujet de ce travail est une approche d’estimation du coût de possession d’un moteur d’avion et une optimisation de son exploitation. Pour cela on cherchera à mettre en relation l’usage du moteur et des indicateurs d’usure que l’on validera à partir de données de maintenance. Les facteurs d’usage sont obtenus à partir des données stockées par les enregistreurs de vol, le nombre de cycles, de vols, etc. Ces données sont de deux types : des mesures temporelles techniques : températures, pressions, vitesses de rotation associées à un contexte opérationnel, le pilotage de l’appareil, les conditions de vol, la mission.

Les indicateurs d’usures sont obtenus à partir de la consommation, les vitesses de rotation, les durées d’opération en haute température, etc. Les données de maintenance sont des dates de réparation, des pièces changées, des remarques d’opérateurs, etc. La validation des indicateurs d’usure est importante car elle permet de mesurer un coût opérationnel (dont il faudra déterminer la dimension : temps sous l’aile par exemple) à partir de mesures faites sur le moteur. Le modèle d’usure en fonction de l’usage permet d’estimer le coût de possession d’un moteur par une compagnie en fonction des missions qu’elle réalise. Les modèles ne pourront être validés que sur de très grand nombre de données. Une étape importante sera certainement de construire une base de données conséquente.

Un moteur intelligent (smart-engine) est un système capable d’adapter sa régulation en fonction de son état et de son usage. L’idée est de vérifier qu’il est possible d’établir une catégorisation des moteurs à partir de leur état et de la façon dont ils sont utilisés. Si de grandes catégories bien identifiées apparaissent, on essayera de construire des modèles de régulation adaptés.

Sujet :
Actuellement les données issues des différentes mesures de bancs d’essais ou de données captées en cours de vol, sont de plus en plus volumineuses, temporelles et massivement multidimensionnelles. Afin de pouvoir les représenter et surtout mieux les comprendre, il nous faut faire appel à des techniques de fouille de données séquentielles et d’apprentissage statistique massivement distribué.
Les challenges suivants seront aussi à relever :
1/ La visualisation de grand volume de données est forcément plus complexe. Il faudra pouvoir envisager des techniques de projection et de visualisation à grande échelle.
2/ Récupérer, stocker et requêter les grands volumes de données dans des environnements sécurisés et les mettre à disposition des ingénieurs de façon utilisable.
3/ Le traitement de volumes de données aéronautiques avec les nouvelles plateformes big-data

Profil du candidat :
Le candidat(e) doit avoir de bonnes notions en mathématiques, statistiques et algorithmiques. Une expérience en traitement de données massives est souhaitable.

Formation et compétences requises :
Le dossier de candidature en PDF comportera les éléments suivants :
-CV
-Relevés de notes, M1, M2 (Ing)
-Lettre de motivation
-Lettre(s) de recommandation

Le dossier de candidature est à envoyer par mail à (en précisant dans le l’objet du mail [CIFRE-SAFRAN]) :
Hanene.Azzag@lipn.univ-paris13.fr, Mustapha.lebbah@univ-Paris13.fr.

Adresse d’emploi :
SAFRAN Villaroche et LIPN

Document attaché :

Categories: theses

Réseaux Profonds Multimodaux pour l’analyse et la classification de documents audio-visuels

Jun 30 – Jul 1 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : EURECOM/ORKIS
Durée : 3 ans
Contact : secretariat@eurecom.fr
Date limite de publication : 2017-06-30

Contexte :
Cette thèse s’inscrit dans le cadre du développement de fonctionnalités nouvelles pour une plateforme d’indexation, de recherche et de liage d’informations multimodales. L’étude s’intéresse à l’utilisation de méthodes dites d’apprentissage profond pour l’analyse et la structuration de documents audio-visuels, principalement à la vidéo, mais d’autres documents textuels (articles, rapport, etc..) et visuels (images, visages, logos) pourront aussi être traités. L’objectif étant de permettre l’analyse automatique de documents audio-visuels pour en extraire le contenu à des fins d’indexation et pour la création de liens sémantiques entre documents. La thèse se concentrera sur les aspects d’analyse vidéo, de fusion multimodale et de construction automatique d’index à partir de ces données. Les travaux construiront de nouveaux modèles multimodaux en s’appuyant d’abord sur les architectures les plus récentes de Réseaux Neuronaux profonds, puis en les étendant afin de repousser l’état de l’art.

Sujet :
Cette thèse a trois principaux objectifs:
• développer des techniques d’analyse du contenu audio-visuel (texte inclus), de façon à pouvoir catégoriser les données multimodales, en adaptant et améliorant les modèles à base de Réseaux Profonds. Cette catégorisation servira à structurer et annoter sémantiquement les collections et mieux comprendre leur contenu et leur évolution.
• étudier et mettre en place des approches de segmentations temporelles prenant en compte le contexte et le contenu afin de définir de façon précise et localisée (temporellement et éventuellement spatialement) le découpage sémantique des documents audio-visuels
• élaborer et valider des méthodes automatiques pour mettre en relation des contenus audio-visuels partageants des concepts sémantiques communs construisant sur les approches d’analyse et de segmentations précédemment développées.

Profil du candidat :
Interessé par l’apprentissage machine et profond.
Possedant des connaissances en analyse d’image et/ou données multimodales.
Aime la programmation.
Curieux et méthodique.

Formation et compétences requises :
Niveau académique/diplôme : Master avec mention
• Domaine/spécialité : Informatique
• Technologies : Apprentissage Automatique, Modèles Probabilistes, Programmation
• Langues: Français (Requis) et Anglais

Adresse d’emploi :
Sophia Antipolis (06) / Aix en Provence (13)

Document attaché : phd_ds_bh_may2017_fr_v2.pdf

Categories: theses

Jul

Thèse UPMC-Paris 6 : Forêts aléatoires et apprentissage profond pour la reconnaissance d’expressions faciales

Jul 21 – Jul 22 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : ISIR Institut des Systèmes Intelligents et de Robotique
Durée : 3 ans
Contact : kevin.bailly@upmc.fr
Date limite de publication : 2017-07-21

Contexte :
La reconnaissance automatique des expressions faciales vise à extraire des indices relatifs à l’état cognitif, émotionnel et aux intentions sociales d’une personne à partir d’une image ou un flux vidéo. Il s’agit d’un domaine de recherche très actif à l’interface de la vision par ordinateur et de l’apprentissage statistique (machine learning) pouvant donner lieu à de nombreuses applications dans le domaine de l’interaction humain-machine (robots, bornes interactives, avatars), des études comportementales, des jeux vidéo ou de la capture de mouvements sans marqueurs.

Sujet :

Pour être vraiment effectifs et déployés à plus large échelle, les systèmes d’analyse faciale de nouvelle génération devront toutefois être robustes aux différentes variations de l’environnement (illumination, angle de vue, identité de la personne, occultations), légers et temps réel (contexte embarqué et interactif). L’objectif scientifique de cette thèse est de concevoir des méthodes d’apprentissage à l’interfaces des réseaux de neurones profonds et des forêts aléatoires (également appelé réseaux conditionnels [1,2,3]) afin de concevoir des systèmes d’analyse d’expressions faciales capables de répondre à ces défis [4,5].

Les approches seront validées au travers de deux applications en environnements réels et non contraints : l’évaluation des productions émotionnelles d’enfants avec autisme dans un contexte de jeu sérieux et l’analyse des expression faciales pour la caractérisation de la souffrance respiratoire (dyspnée) de patients placés sous assistance respiratoire. Les développements issus de ce projet seront intégrés dans une bibliothèque logicielle sous licence Open Source.

Profil du candidat :
Diplôme de Master ou Grande École.
Compétences requises :
– Apprentissage statistique / reconnaissance des formes
– Traitement du signal et des images
– Programmation Python, Matlab et/ou C++
– Excellentes capacités relationnelles et rédactionnelles (français et anglais)

Formation et compétences requises :
Pour candidater, merci d’envoyer par mail (kevin.bailly@upmc.fr) les informations suivantes :
– CV détaillé et lettre de motivation
– Résultats académiques des 3 dernières années d’étude
– 3 références professionnelles (nom, fonction et coordonnées)

Adresse d’emploi :
ISIR – UPMC – Campus Jussieu
4 place Jussieu
75005 Paris

Document attaché : sujet-these-reseauxCond.pdf

Categories: theses

Sep

Unified structuration of heterogeneous and multimodals content for interactive mining

Sep 1 – Sep 2 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : Laboratoire L3i
Durée : 36 mois
Contact : mickael.coustaty@univ-lr.fr
Date limite de publication : 2017-09-01

Contexte :
Les données papiers et numériques produites par les grandes institutions publiques ou privées
intègrent différents types de contenus très hétérogènes dont la cohérence globale est difficile à
appréhender. Un exemple de telles données sont les contenus liés à l’activité de l’Université de La
Rochelle : celles-ci représentent un potentiel d’information riche qui nécessiterait d’être extraites,
structurées et agrégées pour renseigner ses partenaires (convention de stage avec les sujets,
termes des contrats de recherche, site web de l’offre de formation et des laboratoires, noms des
vacataires et enseignements assurés, entreprises d’origine, etc.). Un autre exemple pourrait
consister à analyser l’ensemble des contenus manipulés par une mairie afin de lui permettre de
retrouver les informations concernant une personne ou une entité, et proposer des services
innovant de recherche et de visualisation de ces contenus agrégés.
Dans cette thèse, nous souhaitons étudier la combinaison de mécanismes d’information spotting et
d’information retrieval afin de proposer des solutions pour rechercher et visualiser de l’information
de manière interactive. Le principe consiste, dans un premier temps, à extraire automatiquement
de l’information à partir des contenus présents dans les systèmes d’information (scan de
documents, informations structurées et non structurées), de l’organiser au sein d’une structure de
données complexe (tel que des graphes ou des hypergraphes) qui représentera les différents
types de liens qui peuvent exister entre des données (même type d’information, données
concernant une même entité, etc.) et de calculer des clusters de données proches spatialement ou
sémantiquement. Enfin, des outils de visualisation et de navigation interactifs seront testés afin
d’aider l’utilisateur à interagir avec le système mais également de comprendre ces interactions afin
de pouvoir proposer de nouvelles méthodes pour réorganiser l’espace de recherche.

Sujet :
Le propre de ce sujet repose dans le fait qu’il se situe à l’interface de deux domaines de
recherche : la reconnaissance, l’interprétation, et l’indexation de contenus numériques d’une part,
et l’étude des graphes de terrain, c’est-à-dire de réseaux réels modélisables par des graphes
d’autre part. C’est donc l’interface de ces deux domaines qui est ciblée avec la volonté de
proposer de nouvelles méthodes de structuration et d’indexation des contenus à partir des
méthodes utilisées sur des grands graphes (détection de communautés, de sous-graphes denses)
et enrichir les méthodes développées en analyse de graphes afin de les enrichir avec les
informations et les caractéristiques usuelles utilisées en analyse de documents et de contenus
numériques. Les verrous scientifiques se situent donc dans chacun de ces domaines et à
l’interface en mélangeant ces approches.
Analyse de contenus numériques : les travaux les plus récents en analyse de documents
s’intéressent à l’information spotting qui consiste à retrouver des contenus similaires sans les
reconnaître [2], et essayer de créer des liens entre des contenus textuels et des représentations
images [1] en plongeant leurs descriptions dans un espace de représentation commun. Cela
consiste donc à extraire des entités types à partir d’un corpus significatif de données (textes ou
images) et trouver un espace de représentation hybride entre texte et image. La question majeure
qui n’est pour le moment que peu adressée consiste à proposer un espace de représentation
commun, entre des éléments textuels et des éléments images, comme c’est le cas dans [3,4]. Cet
espace doit permettre de rapprocher des contenus similaires issus de documents nativement
numériques ou de contenus dématérialisés à l’aide de métriques usuelles. L’utilisation de
méthodes à base de réseaux profonds pourra être également envisagée [8].
Analyse de réseaux d’information et de graphes : une fois ces contenus résumés sous forme
d’entités types et de leurs représentations vectorielles, des liens seront proposés entre les
contenus les plus proches afin de construire un réseau d’information complexe. L’étude de ces
réseaux consiste ensuite à extraire des informations complexes implicites (liens entre ces sources,
détection de communauté ou de cluster dans des réseaux). Si les approches classiques de
clustering de graphes ne sont pas utilisables directement pour calculer des communautés dans
des graphes multiplexes (graphes avec plusieurs couches de différents niveaux sémantiques), des
approches de clustering consensuel, naturellement plus stables, peuvent être envisagées [5]. En
particulier, des systèmes récents proposent de détecter des communautés (qui pourraient
représenter des ensembles cohérents de données) à partir de recherche similarité entre des
noeuds basée sur la propagation des labels, en temps réel et dans un contexte big data [6,7].

Profil du candidat :
Master en informatique

Formation et compétences requises :
Pattern recognition
Graph
Deep Learning

Adresse d’emploi :
Laboratoire L3i
Université de La Rochelle
La Rochelle, France

Document attaché : sujet_these_2017_coustaty_final_cle4e7977.pdf

Categories: theses

Sep

Multigraph clustering and business applications